← Все вакансии

Дата-инженер в Райдтех

Команда DWH снабжает менеджеров и аналитиков данными, которые помогают развиваться новым райдтех-направлениям. Мы ищем талантливого инженера данных для работы над новыми доменами DWH, которым пользуются сотни бизнес-пользователей.

Ключевые домены данных команды новых доменов (Emerging Domains)

  • B2B — кросс-сервисный (Такси, Доставка, Маркет, Еда и т. д.) домен, объединяющий данные по всем заказам, клиентам, контрактам и коммуникациям с организациями в рамках B2B-продукта в РФ, СНГ и межнарнаправлениях.
  • Данные для поддержки (Support) — домен данных, по всем взаимодействиям с пользователями, водителями, курьерами, парками и вообще всеми, на кого влияют наши продукты. Включает голосовую, письменную, ML-коммуникацию во всех странах присутствия Яндекса и Yango.
  • Шеринговые сервисы: Самокаты, Драйв, Бери заряд — домен данных, отвечающих за рост и развитие данных по шеринговым сервисам.
  • Заправки — домен данных приложения и бизнеса Я.Заправки (Мое Авто в Go), который на текущий момент становится намного шире и больше, чем просто Заправки. Стремительно появляются новые продукты, например, оплата платных дорог и вызов эвакуаторов.
  • Новые запуски и продукты — в зону ответственности команды входит помощь бизнеса в старте новых продуктов, проектов и экспериментов.

Задачи и обязанности

Проектировать, реализовывать и оптимизировать сложные ETL-процессы

У нас широкий инструментарий и огромные объёмы данных. Мы активно развиваем своё хранилище и реализуем новые сложные пайплайны обработки данных. Наши инженеры работают с данными на всех этапах, начиная от появления в источниках и заканчивая финальными витринами и отчётами.

Обеспечивать стабильность и качество того, что уже есть

Нашими данными пользуется очень много людей, и важно не сломать существующую функциональность. Можно и нужно заниматься техдолгом: мы всячески поддерживаем любые улучшения, автоматизации, правки и отключение ненужного или устаревшего.

Участвовать в проработке и пилотировании нового

Flink, Spark, инкрементальное построение, Data Quality, развитие собственного ETL-фреймворка, тесные интеграции с аналитическими инструментами и многое другое — нужно исследовать, сравнивать, пилотировать, думать, превращать в инструменты для всех. Что-то из этого у нас есть, что-то нужно переосмыслить, что-то внедрить — во всём можно участвовать.

Больше о разработке в Яндексе — в канале Yandex for Developers

Требования

  • Junior-, middle- или senior-специалист
  • Уверенно владеете SQL, понимаете устройство современных баз данных и фреймворков обработки
  • Владеете Python хотя бы на базовом уровне
  • Разбираетесь в классических алгоритмах и структурах данных
  • Можете объяснить, для чего нужны CI/CD, выделить преимущества использования Git и ревью кода

Дополнительные требования

  • Знакомы со стеком технологий Hadoop, Airflow, ClickHouse, Greenplum, Postgres или готовы освоить
  • Работали по методологии Agile
  • Участвовали в проектировании хранилищ данных
  • Создавали сложные высоконагруженные процессы ETL и ELT (отдельным плюсом будет знание инструментов Luigi и Airflow)
  • Разрабатывали процессы обработки сложных событий (CEP) во времени, приближенном к реальному (Kafka Streams, Spark, Flink)
  • Работаете со специализированными аналитическими инструментами на базе Python (Jupyter, Pandas, SciPy, Matplotlib, Bokeh)
Python Go SQL PostgreSQL ClickHouse Kafka CI/CD Pandas Spark Airflow Hadoop Jupyter Git
Откликнуться →