Проект, посвященный пайплайнам для crawling и массовой обработки данных.
Что вы будете делать:
- Масштабируемый scraping на Java
- Обработка текста / дедупликация / matching
- Микросервисы
- Оптимизация производительности
Требования:
- Java (Spring или аналог)
- Опыт с crawling / async tasks / queue systems
- MySQL / PostgreSQL
Будет плюсом:
- Kafka / RabbitMQ
- ElasticSearch