Data Engineer
Responsabilități:
Масштабировал обработку данных в 10 раз (с 2 ТБ до 20 ТБ в сутки), мигрировав 15+ задач Pandas на PySpark, сократив время выполнения на 85% (с 6 часов до 45 минут).
Автоматизировал 60% ручных процессов с помощью DAG-ов Airflow, сэкономив 20+ человеко-часов инженерной работы ежемесячно.
Спроектировал оптимизированные звездообразные модели данных для аналитики, улучшив производительность запросов на 30%.
Оптимизировал производительность Hive с помощью партиционирования и Z-порядка (Z-ordering), ускорив формирование отчетов в 6 раз (с 45 минут до 8 минут).
Руководил командой из 5 инженеров по данным при разработке первого в банке фреймворка для обеспечения качества данных с использованием Great Expectations.
Сотрудничал с командами BI и аналитики для согласования моделей данных с бизнес-требованиями.
Создал видео-курсы по внедрению Great Expectations, которые были использованы более чем 100 инженерами внутри компании.
-------------
Am scalat procesarea datelor de 10 ori (de la 2 TB la 20 TB/zi), migrând peste 15 sarcini Pandas la PySpark, reducând timpii de execuție cu 85% (de la 6 ore la 45 de minute).
Am automatizat 60% dintre procesele manuale prin DAG-uri Airflow, economisind peste 20 de ore-inginer pe lună.
Am proiectat modele de date optimizate de tip stea (star-schema) pentru analiză, îmbunătățind performanța query-urilor cu 30%.
Am optimizat performanța Hive prin partiționare și Z-ordering, accelerarea rapoartelor de 6 ori (de la 45 de minute la 8 minute).
Am condus o echipă de 5 ingineri de date în dezvoltarea primului cadru de calitate a datelor al băncii, folosind Great Expectations.
Am colaborat cu echipele de BI și analiză pentru a alinia modelele de date cu cerințele de afaceri.
Am creat cursuri video despre implementarea Great Expectations, adoptate intern de peste 100 de ingineri.