ML-разработчик в команду VLM Reasoning
Это одна из самых интересных зон в современном ML: здесь нужно одновременно понимать, как устроены сильные VLM, какие данные действительно развивают reasoning, какие подходы в post-training дают реальный прирост и как превратить всё это в функции, которыми будут пользоваться миллионы людей в продуктах Яндекса.
У нас много настоящего research и быстрый цикл внедрения: хорошие идеи не остаются в презентациях, а доходят до реальной модели и пользовательских сценариев.
Задачи и обязанности
Строить датасеты для мультимодального reasoning
Вам предстоит работать с данными, на которых формируются reasoning-способности модели: собирать и обрабатывать датасеты, проектировать форматы задач, искать сложные и показательные кейсы. Важно понимать, какие типы данных действительно учат модель рассуждать лучше на документах, таблицах, графиках, интерфейсах, сложных изображениях и видео, а какие дают лишь локальный прирост на узких сценариях.
Разрабатывать методы обучения, post-training и RL для reasoning
Вы будете разрабатывать и улучшать подходы, которые усиливают мультимодальный reasoning модели: SFT, self-improvement, reward-driven-обучение, test-time-стратегии и RL-алгоритмы. Здесь важно не только предлагать хорошие идеи, но и превращать их в работающий pipeline: подбирать постановку задачи, источник сигнала, функцию награды и режим обучения, которые реально повышают качество рассуждений и делают поведение модели устойчивее на сложных кейсах.
Строить tool calling и agentic vision
Мы хотим, чтобы модель умела не только отвечать по изображению, но и действовать: вызывать инструменты, работать с OCR, парсерами, браузером и другими внешними системами, если это нужно для решения задачи. Вам предстоит развивать подходы, в которых VLM становится агентом: планирует шаги, использует инструменты и решает визуальные задачи в средах, близких к реальным продуктовым сценариям.
Больше об ML в Яндексе — в канале Yandex for ML
Требования
- Хорошо знаете ML и уверенно ориентируетесь в современных LLM/VLM
- Имеете практический опыт в CV, NLP или мультимодальном обучении
- Знакомы с Reinforcement Learning и понимаете, где RL-подходы применимы
- Умеете формулировать гипотезы, ставить аккуратные эксперименты и делать выводы по результатам
Дополнительные требования
- Работали с reasoning-задачами, post-training, alignment
- Обучали большие модели или large-scale ML-системы
- Знакомы с tool calling, агентными пайплайнами или обучением моделей работе с внешними инструментами
- Понимаете ограничения современных VLM и следите за трендами в multimodal reasoning