← Все вакансии

ML-инженер в команду претрейна синтеза речи

Мы строим универсальный мультиязычный претрейн для TTS, который станет основой для всех наших продуктов: от голосового ассистента и аудиокниг до клонирования голоса и его сохранения при видеопереводе и дубляже.

Одна из ключевых задач команды прямо сейчас — разработка нового нейронного аудиокодека. От него зависит всё: скорость и стоимость обучения, широта интонаций и эмоций, чистота и естественность звука в финальных продуктах.

Задачи и обязанности

Разработка семантического аудиокодека

Вы будете проектировать, обучать с нуля и масштабировать современные архитектуры нейронных кодеков. Цель — достичь максимального сжатия с минимальными потерями качества и семантической информации.

Работа с большими данными

Вам предстоит обучать модели на сотнях тысяч часов мультиязычной речи.

Обучение и масштабирование больших моделей

Вы будете обучать большие (несколько B) модели и проводить с ними эксперименты на наших GPU-кластерах — при помощи распределённого обучения.

Оценка и метрики

Вам нужно будет придумывать и внедрять автоматические и экспертные метрики для оценки качества звука (чистота, артефакты), выразительности речи и семантической сохранности выходов кодека и претрейна.

Сквозной цикл разработки

Вы пройдёте полный путь от исследования (чтение статей, proof-of-concept) до тестирования ваших решений в реальных продуктах.

Больше об ML в Яндексе — в канале Yandex for ML

Требования

  • Уверенно пишете на Python и PyTorch
  • Имеете опыт полного цикла обучения больших моделей с нуля, желательно в области NLP, audio или multimodal
  • Обладаете широким кругозором в области NLP
  • Готовы погрузиться в область синтеза речи, чтобы разобраться как в теории, так и в инженерных деталях
  • Следите за развитием ML и умеете воплощать идеи из статей в код

Дополнительные требования

  • Работали в одной из областей: TTS/VC, нейронные аудиокодеки, обучение LLM с нуля

Если вы хотите построить технологический фундамент для будущего синтеза речи, а также видеть результат своей работы в продуктах, которыми ежедневно пользуются миллионы людей, — присоединяйтесь к команде!

Python PyTorch LLM
Откликнуться →