Руководитель команды архитектурной оптимизации инференса в Автономный транспорт

Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены, которые работают на бортовом железе автомобиля. ML-команды отвечают за обучение моделей, их качество и эффективное выполнение на целевых платформах с минимальной потерей точности. Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура анализа производительности и архитектурных экспериментов.

Ищем руководителя направления архитектурной оптимизации инференса для формирования технического вектора команды и принятия ключевых архитектурных решений.

Задачи и обязанности

Руководство командой архитектурной оптимизации инференса

Вам предстоит координировать управленческие процессы (people management), разрабатывать технические планы, определять приоритеты и контролировать выполнение проектов. Вы будете отвечать за достижение измеримых результатов по latency, memory footprint и стабильности инференса на целевом железе.

Анализ вычислительной стоимости моделей

В продуктах используется несколько моделей с различной архитектурой и реализацией. Необходимо детально разбираться в исполнении отдельных частей моделей, выявлять аппаратные ограничения (compute, bandwidth, memory) и формировать варианты архитектурных улучшений с учётом особенностей аппаратной платформы и требований по задачам. Ожидается не только выявление узких мест, но и доведение предложенных изменений до подтверждённого ускорения в сценариях end-to-end.

Развитие архитектуры с точки зрения инференса

Вам предстоит совершенствовать существующие модели и исследовать новые архитектурные решения (в том числе SOTA-подходы), чтобы улучшать производительность инференса при сопоставимом качестве. Совместно с ML-командами вы будете влиять на архитектурный roadmap моделей.

Внедрение ускорений инференса

Вам предстоит организовывать полный цикл внедрения оптимизаций — например, quantization (int8/int4/fp8), mixed precision. Вы будете выстраивать пайплайн оценки качества, производительности и деплоя, обеспечивать попадание найденных решений в продакшен и их использование на автомобилях.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Требования

Работали с инференсом ML-моделей (PyTorch/ONNX/TensorRT или аналогичные стеки)
Понимаете архитектуру современных CV-/transformer-моделей
Выполняли оптимизацию quantization / mixed precision
Умеете системно анализировать вычислительную стоимость моделей
Способны доводить архитектурные идеи до измеримого ускорения в продакшене
Имеете опыт технического лидерства или управления командой
Умеете аргументировать технические решения и работать в кросс-командной среде

Дополнительные требования

Проводили архитектурные perf-исследования без полного обучения
Строили модели latency/bandwidth/memory или использовали roofline-подход
Работали с методами compression/pruning/distillation
Писали кастомные плагины или оптимизации под инференс-движки
Выполняли оптимизацию под конкретные аппаратные платформы (GPU/NPU/embedded)

Python PyTorch

Грейд Senior, Middle

Формат Гибрид

Город Санкт-Петербург

Категория Разработка

Роль Backend

На сайте 3 дня

Откликнуться на сайте Яндекс / Yandex B2B Tech →

Руководитель команды архитектурной оптимизации инференса в Автономный транспорт

Задачи и обязанности

Требования

Дополнительные требования

Похожие вакансии