Программист-исследователь
Продукт заключается в разработке пользовательских эмбеддингов из разных источников данных с целью использования в предиктивных моделях.
Задачи
- применять и адаптировать существующие ML-модели и сервисы под новые бизнес-задачи;
- проектировать и обучать модели на новых и разнородных данных;
- собирать, очищать, обогащать и эмбеддировать данные из разных источников;
- запускать регулярный расчёт новых признаков и улучшать контроль качества данных;
- генерировать и проверять гипотезы, направленные на рост качества текущих и новых моделей;
- развивать инфраструктуру и ML-сервисы, повышая их надёжность, масштабируемость и удобство поддержки;
- писать production-ready пайплайны и сервисный код для внедрения моделей, признаков и новых продуктов;
- обеспечивать воспроизводимость экспериментов, прозрачность расчётов и стабильность работы решений.
Требования
- релевантный опыт работы от 2 лет в задачах Data Science, Machine Learning, ML Engineering или смежных направлениях;
- опыт самостоятельной работы над ML-проектами end-to-end: от постановки задачи и анализа данных до внедрения и поддержки решения;
- уверенное владение Python и SQL;
- практический опыт разработки пайплайнов для эффективной обработки данных на Python и PySpark;
- опыт работы с эмбеддингами, feature engineering и данными из различных источников;
- глубокое понимание классического ML, а также умение выбирать и применять подходящие алгоритмы под задачу;
- навык писать читаемый поддерживаемый код, пригодный для промышленной эксплуатации;
- сильная математическая подготовка, особенно в теории вероятностей и статистике;
- интерес и желание развиваться как в классических задачах ML/DS, так и в нейросетевых методах обработки данных; понимание production ML, MLOps, data quality и мониторинга моделей;
- умение быстро разбираться в новых доменах и формулировать проверяемые гипотезы;
- высшее техническое образование, желательно с IT-профилем;
- готовность брать ответственность за результат, качество и развитие решения.
Будет плюсом
- профильное повышение квалификации, например VK Education, ШАД и аналогичные программы;
- опыт работы с большими и сложными данными;
- опыт в задачах Data Engineering и/или MLOps;
- умение строить не только модели, но и продуктовую инфраструктуру вокруг них;
- навыки написания Bash-скриптов и понимание возможностей командной строки Unix-подобных систем.
Похожие вакансии
Старший программист систем хранения данных
VK Tech
Разработчик Backend
VK Tech
Backend разработчик Чистого веба
Яндекс / Поисковые сервисы и ИИ
Руководитель команды разработки в Storage
Яндекс / Yandex Infrastructure
Разработчик в группу основного продукта Авто.ру
Яндекс / Вертикали
Руководитель команды CUDA-инференса в Автономный транспорт
Яндекс / Yandex B2B Tech