← Все вакансии

DL-разработчик в команду исследования архитектуры YandexGPT

Наша команда отвечает за исследование архитектуры и обучение моделей YandexGPT. Мы занимаемся претрейном LLM, ставим эксперименты с самыми современным подходами, оптимизируем распределённое обучение на большом GPU-кластере, и в итоге наши базовые модели внедряются в ключевые продукты Яндекса. Ищем опытного DL-инженера, который присоединится к команде базовой технологии.

Задачи и обязанности

Воспроизведение и улучшение мировых наработок по обучению LLM


Вы будете реализовывать и исследовать архитектуры LLM и все составные части обучения. Ваша работа может включать реализацию новых оптимизаторов, постановку экспериментов с Mixture of Experts, улучшение attention-а и многое другое. Вы будете ставить эксперименты для достижения максимального качества и эффективного инференса моделей.

Повышение эффективности распределённого обучения на GPU


Вам предстоит ускорять обучение моделей на кластере, исследовать и реализовывать наиболее оптимальные стратегии параллелизма, профилировать CUDA и CPU-код и находить ботлнеки.

Разбор релевантных публикаций


Нужно будет глубоко анализировать релевантные современные публикации по теме, выявлять наиболее перспективные и полезные подходы, а затем воспроизводить их и улучшать.

Больше об ML в Яндексе — в канале Yandex for ML

Требования

  • Обучали и реализовывали трансформерные модели на PyTorch
  • Понимаете, как устроены современные LLM
  • Имеете опыт в распределённом обучении и знаете, какие алгоритмы в нём используются
  • Обладаете крепкой базой в машинном обучении

Дополнительные требования

  • Разрабатывали на CUDA или Triton
  • Умеете выявлять и устранять проблемы в процессе обучения на GPU
  • Знакомы с FSDP и ZeRO, понимаете концепции Model Parallelism
PyTorch LLM
Откликнуться →