← Все вакансии

Разработчик ML в инфраструктуру данных для еком-сценариев

Наша команда занимается сбором и подготовкой данных для еком-среза Поиска. Мы хотим сделать сценарии поиска лучше, чтобы пользователям было проще находить информацию о товарах, магазинах и делать покупки в интернете.

Мы строим лучшую товарную базу в рунете: индексируя сайты с помощью обходов роботами и настраивая B2B-интеграции, мы наполняем контент-систему, построенную на технологиях YTsaurus, обрабатываем сотни тысяч запросов в секунду и храним десятки миллиардов записей и терабайты данных.

При сборе данных, их обогащении и поддержке в актуальном состоянии у нас возникают задачи на любой вкус: исследовательские, инфраструктурные — например, продакшн-код на C++20, работа с данными и создание MVP на Python, а также ML-задачи: подготовка и внедрение как YandexGPT, так и моделей поменьше, таких как BERT, CatBoost, DSSM.

Примеры задач, которые мы решаем:

  • Как находить новые товары в интернете?
  • Как на потоке быстро понимать, что интернет-страница является товарной, и доставать из неё всю полезную информацию?
  • Как приоритизировать индексацию страниц, чтобы максимизировать актуальность информации?
  • Как контролировать качество данных в базе?

Мы ищем опытного ML-разработчика, который поможет сделать товарный поиск лучше и удобнее для пользователя.

Задачи и обязанности

Использование связей «товары — каталоги» для наполнения товарной базы

Один из способов эффективно индексировать постоянно изменяющееся множество товарных страниц в интернете — это естественные батчи: каталоги и листинги. А чтобы этот подход работал, помимо высококачественного получения информации о товарах со страниц каталогов, нужно уметь в нужном порядке обходить страницы и на уровне базы поддерживать ключи для связи сущностей в базе (many-to-many), чтобы не нарушать консистентность данных.

Определение доступности товаров для заказа

Если мы хотим сделать товарную выдачу релевантной для пользователя, то должны понимать, какие товары пользователь действительно мог бы заказать. Для этого мы хотим оперативно находить недоступные страницы и товары, которых уже нет в наличии, а также учесть в рантайме пользовательскую региональность.

Больше об ML в Яндексе — в канале Yandex for ML

Требования

  • Хорошо понимаете классическое ML
  • Разбираетесь в NLP
  • Имеете опыт продуктовой разработки
  • Готовы учиться и осваивать новые технологии
Python C++
Откликнуться →