← Все вакансии

ML-разработчик в команду алайнмента VLM

Наша команда учит мультимодальные модели, которые не просто «видят картинку и отвечают на вопрос», а действительно понимают визуальный контекст, следуют инструкции и работают на уровне продуктового качества.

Задачи и обязанности

Развивать методы RL для VLM

Вам предстоит переосмыслить методы алайнмента для работы на стыке визуальной и текстовой модальностей. Как наградить модель за правильный визуальный reasoning? Как отучить её галлюцинировать при описании изображения? Вы будете находить ответы на эти вопросы и внедрять их в пайплайн обучения.

Прокачивать мультимодальные навыки модели

Требуется выйти за пределы простых подписей к фото. Вы будете учить модель понимать сложный контекст: анализировать графики, разбирать видеопотоки и безупречно следовать многошаговым инструкциям. Для этого предстоит активно экспериментировать с UG-данными и AI-фидбэком.

Разгонять large-scale-обучение до предельных скоростей

RL-loop для мультимодальных моделей — это один из сложных инженерных вызовов в современном ML. Вам предстоит ускорять генерацию на лету, профилировать узкие места и добиваться того, чтобы эксперименты крутились кратно быстрее, а GPU не простаивали ни секунды.

Превращать SOTA-ресёрч в магию для пользователей

Мы делаем AI не для метрик в вакууме, а для людей. Вы будете отвечать за product-driven-подход: превращать продуктовые требования сервисов Яндекса в функцию награды. Ваша цель — сделать поведение VLM предсказуемым, полезным и безопасным, чтобы внедрение модели вызывало у пользователей вау-эффект.

Больше об ML в Яндексе — в канале Yandex for ML

Требования

  • Отлично знаете классические ML, NLP и CV
  • Понимаете, как устроены современные LLM/VLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
  • Следите за трендами в области LLM/VLM, умеете с ходу отличать хайп от рабочих практик и готовы быстро реализовывать новые идеи
LLM
Откликнуться →