Руководитель команды архитектурной оптимизации инференса в Автономный транспорт
Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены, которые работают на бортовом железе автомобиля. ML-команды отвечают за обучение моделей, их качество и эффективное выполнение на целевых платформах с минимальной потерей точности. Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура анализа производительности и архитектурных экспериментов.
Ищем руководителя направления архитектурной оптимизации инференса для формирования технического вектора команды и принятия ключевых архитектурных решений.
Задачи и обязанности
Руководство командой архитектурной оптимизации инференса
Вам предстоит координировать управленческие процессы (people management), разрабатывать технические планы, определять приоритеты и контролировать выполнение проектов. Вы будете отвечать за достижение измеримых результатов по latency, memory footprint и стабильности инференса на целевом железе.
Анализ вычислительной стоимости моделей
В продуктах используется несколько моделей с различной архитектурой и реализацией. Необходимо детально разбираться в исполнении отдельных частей моделей, выявлять аппаратные ограничения (compute, bandwidth, memory) и формировать варианты архитектурных улучшений с учётом особенностей аппаратной платформы и требований по задачам. Ожидается не только выявление узких мест, но и доведение предложенных изменений до подтверждённого ускорения в сценариях end-to-end.
Развитие архитектуры с точки зрения инференса
Вам предстоит совершенствовать существующие модели и исследовать новые архитектурные решения (в том числе SOTA-подходы), чтобы улучшать производительность инференса при сопоставимом качестве. Совместно с ML-командами вы будете влиять на архитектурный roadmap моделей.
Внедрение ускорений инференса
Вам предстоит организовывать полный цикл внедрения оптимизаций — например, quantization (int8/int4/fp8), mixed precision. Вы будете выстраивать пайплайн оценки качества, производительности и деплоя, обеспечивать попадание найденных решений в продакшен и их использование на автомобилях.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
Требования
- Работали с инференсом ML-моделей (PyTorch/ONNX/TensorRT или аналогичные стеки)
- Понимаете архитектуру современных CV-/transformer-моделей
- Выполняли оптимизацию quantization / mixed precision
- Умеете системно анализировать вычислительную стоимость моделей
- Способны доводить архитектурные идеи до измеримого ускорения в продакшене
- Имеете опыт технического лидерства или управления командой
- Умеете аргументировать технические решения и работать в кросс-командной среде
Дополнительные требования
- Проводили архитектурные perf-исследования без полного обучения
- Строили модели latency/bandwidth/memory или использовали roofline-подход
- Работали с методами compression/pruning/distillation
- Писали кастомные плагины или оптимизации под инференс-движки
- Выполняли оптимизацию под конкретные аппаратные платформы (GPU/NPU/embedded)