Старший ML-разработчик тьютора английского языка
Наша команда занимается разработкой и исследованиями технологии перевода и задач мультиязычности. Мы создаём модели перевода для огромного количества языков, а также модели фотоперевода, перевода веб-страниц и видео.
Наши задачи лежат на стыке глубоких исследований базовых NLP-технологий и продуктов и совмещают в себе:
- Глубокое погружение в современные научные подходы — не просто реализацию готовых методов, а развитие новых идей
- Адаптацию к продуктам с миллионами пользователей и десятками тысяч запросов в секунду
- Продуктовую проработку технологии и фокус на решении фактической задачи пользователя
Недавно мы сделали новую систему перевода на основе LLM и радикально приблизились к качеству человеческих переводов. А также разработали новую систему управляемого перевода с возможностью передавать стиль, сложность и дополнительный контекст. Подробнее об этом можно почитать в статье на Хабре и в статье на WMT.
Сейчас мы начинаем новый проект и ставим цель создать систему тьютора английского языка. Продукт будет выступать в роли собеседника-тренажёра для практики языковых навыков, а также полноценного репетитора, который оценит уровень языка, найдёт ошибки и составит рекомендации по улучшению знаний.
Мы ищем опытного NLP-специалиста, который станет основным разработчиком нового продукта.
Задачи и обязанности
Построение архитектуры продуктовой ML-системы
Вам предстоит прорабатывать ML-функциональность тьютора: от взаимодействия с менеджерами продукта до интегральной и аспектной оценки качества системы. Вы построите пайплайн обучения и аналитики модели, а также будете отвечать за релизы и интеграцию модели в сервисы Яндекса, такие как Яндекс Переводчик или Алиса.
Исследования в области LLM-моделей
Мы используем самые современные технологии NLP, в том числе дообучение больших языковых моделей. Вы будете много работать с алайнментом LLM, а также с методами использования дополнительной информации и сценариев (RAG, вызов функций).
Создание инфраструктуры обучения, адаптация к условиям продакшна
Вы будете отвечать за пайплайн обучения, а также инфраструктуру для экспериментов. Отдельный технологический вызов — сделать так, чтобы модель могла эффективно работать в реалтайм-сервисе с сотнями тысяч пользователей, найти компромисс между скоростью ответа и качеством.
Больше об ML в Яндексе — в канале Yandex for ML
Требования
- Больше трёх лет занимались продуктовой NLP-разработкой
- Знакомы с основами обучения LLM
- Отлично знаете математику и готовы разбираться в научных статьях
- Готовы к взаимодействию со смежными командами — продукта и аналитики