Аналитик-разработчик претрейна Alice AI LLM

Наша команда занимается аналитикой претрейн-модели Alice AI LLM, которая лежит в основе Алисы, Поиска и многих других продуктов Яндекса.

Наша цель — улучшать модель, решая множество прикладных задач, постоянно мониторить качество со всех сторон и не терять ничего важного. Для этого нам нужна система надёжных и разносторонних метрик — такими метриками (бенчмарками) и занимается наша команда. Мы замеряем модели на множестве бенчмарков: от известных опенсорсных тестов (MMLU, GPQA) до наших узких специализированных (например, теста на знание русской культуры).

Ищем активных и заинтересованных аналитиков.

Почему в нашей команде классно:

Alice AI — быстрорастущий проект, у нас можно проявить себя, поработать с крутыми опытными ML-специалистами.
Можно гонять самые современные модельки Яндекса на мощных GPU-кластерах.
Можно воспроизводить исследования из самых свежих статей и придумывать что-то новое.
Мы учимся решать задачи, которые пока никто не умеет решать.
Наша работа напрямую влияет на то, как современные ML-технологии становятся доступными широкому кругу пользователей.
Нам помогает команда экспертных AI-тренеров, специализирующихся на сложных срезах данных (медицине, юриспруденции, образовании).

Задачи и обязанности

Создание метрик качества претрейна

Наша главная задача — всесторонне оценивать качество претрейн-модели. Перед нами часто возникают новые интересные задачи: как оценить агентские способности модели на этапе претрейна; как замерить, хорошо ли модель будет работать на задачах от разных сервисов Яндекса; хорошо ли наша модель с высоким сodeforces-рейтингом будет писать код для пользователей; как правильно принимать эксперименты на моделях разных размеров.

Интерпретация результатов экспериментов

Команда разработки проводит много экспериментов и делает выводы на основе наших метрик. Иногда результаты бывают неожиданными или противоречивыми, в этом случае задача аналитиков — помочь разобраться, что произошло.

Анализ точек роста

Всё ещё остаются сложные задачи, с которыми наша модель пока не справляется на должном уровне, но мы стараемся выбрать из них самые перспективные, разобрать проблемы и вместе с командой разработки придумать план решения.

Больше об аналитике в Яндексе — в канале Yandex for Analytics

Требования

Работали над метриками в NLP
Уверенно владеете SQL и Python
Умеете анализировать данные, строили эффективные процессы их обработки
Знаете теорию вероятностей и математическую статистику
Интересуетесь развитием LLM и хотели бы погрузиться в эту тему
Самостоятельны, аккуратны

Дополнительные требования

Работали над LLM
Строили агентские системы
Делали крауд-разметки с системой контроля качества
Свободно читаете на английском

Python SQL LLM

Грейд Senior, Middle

Формат Гибрид

Город Москва

Категория Аналитика

Роль Data Analyst

На сайте 10 дн.

Откликнуться на сайте Яндекс / Поисковые сервисы и ИИ →

Аналитик-разработчик претрейна Alice AI LLM

Задачи и обязанности

Требования

Дополнительные требования

Похожие вакансии