Разработчик на Python в майнинг данных

Каждый день миллионы пользователей ищут, куда пойти, как получить услугу или добраться до нужного места. Мы помогаем им принимать обоснованные решения, предоставляя актуальную и достоверную информацию о компаниях по всему миру.

Справочник — платформа, которая собирает, верифицирует и анализирует данные об организациях. Наша система ежедневно обрабатывает миллионы сигналов: пользовательский фидбек, обновления с сайтов, коррекции от владельцев бизнесов. Мы создаём решения, которые масштабируются на новые рынки и языки.

Наши проекты

Автоматический перевод контента с использованием современных LLM (YandexGPT и др.) для поддержки мультиязычных пользователей
Парсинг данных на Python — платформа для сбора информации об организациях из открытых источников
Изолированная среда выполнения парсеров — безопасный рантайм для пользовательского кода с использованием внутреннего аналога Docker
Унификация данных — алгоритмы нормализации адресов, графиков работы и других атрибутов организаций
Автоматизация обновлений для сетевых компаний (рестораны, магазины) с учётом их филиалов и особенностей

Стек технологий

Backend: C++ (производительность), Python (парсинг), YTsaurus, YDB Topics, PostgreSQL
ML: YandexGPT 5 Pro
Инфраструктура: Docker, Chrome DevTools (для анализа веб-страниц)

Мы предлагаем

Работу с Big Data (сотни миллионов записей) и передовыми LLM
Возможность влиять на архитектуру высоконагруженных систем
Гибкий график и опцию удалённой работы
Компенсацию оплаты обучения (курсы, конференции, сертификации)

Почему это стоит внимания

Внедрение LLM в промышленные пайплайны (автопереводы, разметка данных)
Разработка масштабируемой изолированной среды для выполнения кода
Масштабирование продукта на международные рынки с помощью YTsaurus и AirFlow-подобных систем
Участие в проектировании распределённых систем для обработки данных

Если вы хотите работать на стыке Python, C++ и ML, решая задачи парсинга, NLP и Big Data, присоединяйтесь. Здесь ваши навыки превратятся в технологии, которыми каждый день пользуются миллионы людей.

Задачи и обязанности

Развитие парсинг-платформы

Вы будете оптимизировать архитектуру для одновременной работы сотен парсеров, реализовывать изолированную среду выполнения парсеров и повышать эффективность взаимодействия с PostgreSQL.

Интеграция LLM и NLP

Понадобится создавать пайплайн автоматического перевода контента и разметки данных с помощью языковых моделей, а также адаптировать и настраивать модели (YandexGPT и др.) под бизнес-задачи.

Масштабирование системы

Вам предстоит адаптировать платформу для новых стран и языков, организовывать обработку данных через YTsaurus MapReduce и внутренний аналог AirFlow.

Оптимизация алгоритмов

Ещё вы станете разрабатывать методы сравнения и нормализации атрибутов организаций и ускорять критичные компоненты системы на C++.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Требования

Работали с C++ и Python (уровень middle+)
Глубоко понимаете алгоритмы, структуры данных и SQL
Умеете писать чистый, тестируемый код с документацией

Дополнительные требования

Работали с NLP, трансформерными моделями, MapReduce
Знаете веб-фреймворки: Flask, FastAPI, Django
Умеете работать с Chrome DevTools для отладки парсеров

Python SQL Django Flask FastAPI PostgreSQL Docker Airflow LLM

Грейд Senior, Middle

Формат Гибрид

Город Москва

Категория Разработка

Роль Backend

На сайте 11 дн.

Откликнуться на сайте Яндекс / Поисковые сервисы и ИИ →

Разработчик на Python в майнинг данных

Задачи и обязанности

Требования

Дополнительные требования

Похожие вакансии