Тимлид ML-команды (AI Search) в AI Studio Yandex Cloud
Мы ищем опытного и проактивного лида, который возглавит ML-команду и будет отвечать за разработку базовых технологий для AI-сервисов Yandex Cloud. Основной фокус команды — создание мультитенантных поисковых и классификационных моделей и компонентов сервисов, которые предоставляются облачным пользователям как:
- Standalone API (например, Embeddings API, Classification API)
- Интегрированные функции в рамках OpenAI-like Responses и RealTime API (реализация RAG-сценариев, memory)
- Технологическая основа для конечных продуктов (AI Guardrails, SpeechSense)
Роль предполагает совмещение технического руководства и организационного управления небольшой распределённой командой, проектирование ML-систем, а также непосредственное участие в разработке.
Мы предлагаем:
- Прямое влияние на core-технологии AI-платформы Yandex Cloud
- Высокий уровень технической автономии и свободу в выборе инструментов (активное использование и развитие опенсорса)
- Возможность выстроить процессы и культуру в новой команде практически с нуля
- Сильную R&D-команду и работу в кросс-функциональных v-teams над технически сложными и интересными задачами
Задачи и обязанности
Команда
Вы будете управлять командой ML-разработчиков: проводить performance review, встречи 1-to-1, ставить цели, помогать разработчикам с карьерным развитием, наращивать знания и опыт команды. Понадобится декомпозировать продуктовые цели и превращать их в технический roadmap, формировать квартальные планы команды и отвечать за их реалистичность и стабильную сходимость. Разрабатывать и внедрять CI/CD для моделей, процессов код-ревью, тестирования и релизного цикла ML-артефактов. Представлять R&D-команды в рамках v-team, обеспечивать видимость и прозрачность деятельности R&D-команды, формировать технические требования и запросы к смежным командам (например, требования к данным и инфраструктуре).
Разработка
Вы станете отвечать за исследование и разработку SOTA-моделей для сценариев RAG (поиск, ранжирование), классификации (few-shot/zero-shot, guards) и памяти, а также их интеграцию в инфраструктуру инференса. Нас вас будет лежать прямая ответственность за метрики качества моделей, а также за производительность и стабильность бэкендов инференса (в том числе за логирование, мониторинги и покрытие кода тестами). Кроме того, вам предстоит лично участвовать в разработке: писать код (до 30¬–40% времени), проводить код-ревью, помогать с архитектурой и диагностикой проблем, готовить релизы моделей и бэкендов.
Требования
- Управляли ML-командой от одного года
- Глубоко разбираетесь в современном ML (нейросети, трансформеры) с фокусом на NLP, Information Retrieval или Generative AI
- Разрабатывали и выводили в продакшен ML-сервисы с высокими требованиями к надёжности и производительности
- Уверенно владеете Python и PyTorch
- Понимаете полный жизненный цикл ML-модели: от сбора требований и подготовки данных до эксплуатации в проде
- Проактивны и способны самостоятельно формировать технический бэклог и roadmap, исходя из продуктовых целей
Дополнительные требования
- Использовали опенсорс-проекты и контрибьютили в них (особенно в библиотеки для инференса, такие как TensorRT, TensorRT-LLM, vLLM, SGLang)
- Работали с C++ и низкоуровневыми оптимизациями (CUDA)
- Работали в распределенной команде
- Умеете или хотите выступать на публике, писать технические статьи или вести блог, чтобы повышать внешнюю видимость команды и продукта