Middle Data Engineer в команду SMT

Мы строим корпоративную дата‑платформу следующего уровня — новый сервис с амбициозной задачей: трансформировать наработки компании в единое стандартизированное решение для работы с данными. Отказываемся от легаси, проектируем архитектуру заново, сохраняем лучшее (например, Apache Spark) и постепенно переносим существующие пайплайны на новую платформу.

Начинать с нуля — не значит «с чистого листа». Это возможность заложить фундамент, который будет надёжным, масштабируемым и понятным десяткам инженерных команд. Именно сейчас мы переопределяем техстек, архитектурные подходы и процессы — и сейчас у тебя есть шанс поучаствовать в запуске платформы, куда будут стекаться все корпоративные данные.

Что предстоит делать

Разрабатывать с нуля MVP новой дата‑платформы и инфраструктуры для ingest/transform.
Мигрировать существующие пайплайны с Hadoop/HDFS на новую архитектуру (S3, Kafka, Spark, ClickHouse).
Работать с большими объёмами данных и высоконагруженными Kafka‑топиками.
Строить отказоустойчивые пайплайны обработки и доставки данных.
Участвовать в архитектурных решениях, внедрять best practices хранения, мониторинга и качества данных.
Проектировать витрины данных под продуктовую и управленческую аналитику (OLAP).
Сопровождать миграцию BI‑отчётов на новую платформу (например, DataLens, Power BI).

Почему это интересно

Ты действительно будешь создавать платформу с нуля — не просто настраивать Airflow, а проектировать архитектуру верхнего уровня с безопасностью, мониторингом и многопользовательской нагрузкой.
Влияешь на технологический курс всей компании: твои решения будут использовать десятки команд.
Работаешь с современным стеком: Spark 3+, Kafka, S3, ClickHouse и BI‑инструментами.
Сможешь реализовать технические решения, которые трудно внедрить в рамках существующих подходов.
Решаешь серьёзные инженерные задачи: миграция с Hadoop, масштабируемость, отказоустойчивость и строгие SLA по доставке данных.

Мы будем рады специалисту, который

Имеет 3+ лет опыта на позиции Data Engineer / Big Data Engineer.
Хорошо понимает, как работает Spark и умеет его готовить.
Работал с ClickHouse и знает, как «выжать» из него максимум.
Знаком с построением дата‑архитектуры (DWH, Lake, OLAP, ETL/ELT, Data Governance).
Умеет проектировать пайплайны под отказоустойчивость.
Хорошо владеет одним из языков программирования (например, Python или Scala).
Знает SQL и может читать логику отчётов без боли.

Плюсом будут

Опыт построения дата‑платформ (Self‑Service инструменты и процессы).
Опыт работы с высоконагруженной Kafka (десятки / сотни тысяч событий в секунду).
Знание инструментов мониторинга и автоматического контроля качества данных (Data Quality, Data Contracts).
Опыт построения Data Lineage и работы с Data Catalog.
Инфраструктурный опыт: Docker, Kubernetes, CI/CD.

Как мы работаем

Не боимся убирать легаси — осознанно избавляемся от устаревших решений.
Оцениваем эффективность не по объёму кода, а по бизнес‑ценности.
Любим, когда инженер предлагает нестандартные, но обоснованные решения.
Считаем, что архитектура важна только тогда, когда её понимают — human‑friendly документация обязательна.
Умеем договариваться — и с бизнесом, и друг с другом.

Что мы предлагаем

2ГИС — аккредитованная IT‑компания.
Можно работать удалённо или в офисах (Москва, Санкт‑Петербург, Новосибирск) — главное результат, а не локация.
Полностью «белая» зарплата и дополнительные дни отпуска за стаж работы.
Заботимся о здоровье: ДМС, онлайн‑консультации терапевта, невролога, психолога и медицинского агента.
Поддерживаем развитие: учебный центр, курсы, тренинги и книги для прокачки скиллов.
Если хочешь делиться опытом — поможем с выступлениями на конференциях и публикациями на Хабре.

А ещё мы проводим внутренние хакатоны, отмечаем значимые релизы и устраиваем масштабный фестиваль 2FEST для всего RnD. Делимся опытом на митапах и в подкастах, пишем про технологии на Хабре, а про новое в продуктах - на VC и Доставили, рассказываем о внутрянке в телеграм Dev2GIS, выступаем на CodeFest, HighLoad и многое другое.

Python Scala SQL ClickHouse Kafka Docker Kubernetes CI/CD S3 Spark Airflow Hadoop Power BI