← Все вакансии

Руководитель команды архитектурной оптимизации инференса в Автономный транспорт

Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены, которые работают на бортовом железе автомобиля. ML-команды отвечают за обучение моделей, их качество и эффективное выполнение на целевых платформах с минимальной потерей точности. Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура анализа производительности и архитектурных экспериментов.

Ищем руководителя направления архитектурной оптимизации инференса для формирования технического вектора команды и принятия ключевых архитектурных решений.

Задачи и обязанности

Руководство командой архитектурной оптимизации инференса


Вам предстоит координировать управленческие процессы (people management), разрабатывать технические планы, определять приоритеты и контролировать выполнение проектов. Вы будете отвечать за достижение измеримых результатов по latency, memory footprint и стабильности инференса на целевом железе.

Анализ вычислительной стоимости моделей


В продуктах используется несколько моделей с различной архитектурой и реализацией. Необходимо детально разбираться в исполнении отдельных частей моделей, выявлять аппаратные ограничения (compute, bandwidth, memory) и формировать варианты архитектурных улучшений с учётом особенностей аппаратной платформы и требований по задачам. Ожидается не только выявление узких мест, но и доведение предложенных изменений до подтверждённого ускорения в сценариях end-to-end.

Развитие архитектуры с точки зрения инференса


Вам предстоит совершенствовать существующие модели и исследовать новые архитектурные решения (в том числе SOTA-подходы), чтобы улучшать производительность инференса при сопоставимом качестве. Совместно с ML-командами вы будете влиять на архитектурный roadmap моделей.

Внедрение ускорений инференса


Вам предстоит организовывать полный цикл внедрения оптимизаций — например, quantization (int8/int4/fp8), mixed precision. Вы будете выстраивать пайплайн оценки качества, производительности и деплоя, обеспечивать попадание найденных решений в продакшен и их использование на автомобилях.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Требования

  • Работали с инференсом ML-моделей (PyTorch/ONNX/TensorRT или аналогичные стеки)
  • Понимаете архитектуру современных CV-/transformer-моделей
  • Выполняли оптимизацию quantization / mixed precision
  • Умеете системно анализировать вычислительную стоимость моделей
  • Способны доводить архитектурные идеи до измеримого ускорения в продакшене
  • Имеете опыт технического лидерства или управления командой
  • Умеете аргументировать технические решения и работать в кросс-командной среде

Дополнительные требования

  • Проводили архитектурные perf-исследования без полного обучения
  • Строили модели latency/bandwidth/memory или использовали roofline-подход
  • Работали с методами compression/pruning/distillation
  • Писали кастомные плагины или оптимизации под инференс-движки
  • Выполняли оптимизацию под конкретные аппаратные платформы (GPU/NPU/embedded)
Python PyTorch
Откликнуться →