← Все вакансии

Старший DL-разработчик в команду разработки агентов и функций YandexGPT

Современные LLM могут справляться с разнообразными задачами — от помощи в выполнении домашних заданий до роли психолога или финансового консультанта. Ключевой фактор полезности модели — её способность взаимодействовать с окружающим миром. Наша команда разработки агентов и функций работает над тем, чтобы совершенствовать такие навыки у моделей семейства YandexGPT. Мы учим LLM применять как популярные инструменты (например, общедоступные MCP), так и созданные внутри компании, а также тренируем их находить эффективные решения в разных условиях, в том числе при помощи браузера. Кроме того, мы стремимся адаптировать модели для работы в мультиагентных сценариях и развить у них способность рассуждать при решении задач.

Увлечены агентными системами? Становитесь частью нашей команды и помогайте нам создавать технологии будущего!

Задачи и обязанности

Новые данные и среды для обучения

Модель, способная выполнять сложные агентные задачи, должна обладать набором различных навыков: уметь делать параллельные вызовы функций, определять релевантность инструментов для решаемой задачи, строить план выполнения и многое другое. Возникает необходимость в данных, используя которые модель могла бы эффективно учиться. Они могут представлять из себя как пары инстракт — ответ, так и интерактивные среды, заточенные на обучение конкретным способностям. Ваша задача будет заключаться в сборе таких датасетов и оценке их влияния на рост качества модели.

Обучение моделей агентности

Нам важна возможность применения LLM в широком наборе сценариев — от личного помощника до кодового ассистента. Для этого от моделей требуются хорошие знания доменных областей и умение работать в разнообразных условиях. И если первое решается, как правило, на этапе претрейна, то второе — навык, который возможно развить только путём решения задач в сложных средах. Мы предполагаем, что вы будете обучать агентные модели в комплексных сетапах с большим количеством одновременно используемых сред.

Усиление моделей ризонингом

Использование моделями рассуждений при решении сложных проблем (математика, код) показало высокий потенциал роста качества. Мы уверены, что базовые паттерны ризонинга, такие как верификация, рефлексия и бэктрекинг, полезны и в агентных сценариях. Возникает задача со сложными ограничениями, которую вам предстоит решать, — значительно улучшить качество работы агента при условии разумного роста времени ответа.

Больше об ML в Яндексе — в канале Yandex for ML

Требования

  • Отлично знаете математику, классические алгоритмы и структуры данных
  • Умеете программировать на Python
  • Разбираетесь в Reinforcement Learning. Вас не пугают такие слова, как GAE, PPO, GRPO и другие версии policy optimization
  • Имеете практический опыт в распределённом обучении больших моделей на основе архитектуры Transformer
  • Понимаете, как устроена стадия alignment'а современных LLM

Дополнительные требования

  • Обучали LLM-навыкам использования внешних инструментов (tool calling, function calling)
  • Имеете практический опыт работы c инфраструктурой для RL-обучения: vLLM, SGLang, VERL, etc.
Python LLM
Откликнуться →