Руководитель команды CUDA-инференса в Автономный транспорт

Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены и планирования, которые работают непосредственно на бортовом железе автомобиля. ML-команды отвечают за обучение и качество моделей. Наша задача — обеспечить эффективное выполнение моделей на целевых платформах с минимальной потерей точности.

Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура профилирования, экспериментов и performance-аналитики. Фокус направления — то, как именно выполняются вычисления на GPU и других ускорителях, и достижение измеримого ускорения в end-to-end сценариях. Роль предполагает руководство направлением низкоуровневой оптимизации инференса, формирование технического вектора команды и участие в ключевых performance-решениях.

Задачи и обязанности

Руководство командой CUDA-оптимизации инференса

People management, формирование технических планов и приоритетов, контроль исполнения проектов и ответственность за достижение измеримых результатов по latency, throughput и эффективности использования памяти на целевом железе.

Проектирование и оптимизация вычислительных ядер

Разработка и оптимизация CUDA-kernel и fusion операций для ключевых блоков моделей (matmul, conv, attention и др.), снижая memory traffic и launch overhead. Стремление к устойчивому ускорению в end-to-end сценариях.

Работа с архитектурой GPU

Эффективное использование memory hierarchy, layout данных, tiling-подходы, tensor cores и механизмы повышения occupancy. Системный анализ bottleneck с помощью Nsight и других профилировщиков и формирование вариантов оптимизаций с учётом ограничений железа.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Требования

Имеете сильный опыт CUDA performance engineering
Работали с kernel для matmul/conv/attention
Хорошо знаете C++
Понимаете memory hierarchy GPU и cost model вычислительных операций
Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
Способны на техническое лидерство или управление командой
Умеете аргументировать performance-решения и работать в кросс-командной среде

Дополнительные требования

Работали с CUTLASS / Triton / кастомными inference-движками
Оптимизировали модели под конкретные GPU-архитектуры
Работали с quantization / mixed precision
Строили roofline-модели или latency/bandwidth-оценки
Знаете о fusion-подходах и graph-level оптимизациях

Python PyTorch

Грейд Senior, Middle

Формат Гибрид

Город Санкт-Петербург

Категория Разработка

Роль Backend

На сайте сегодня

Откликнуться на сайте Яндекс / Yandex B2B Tech →

Руководитель команды CUDA-инференса в Автономный транспорт

Задачи и обязанности

Требования

Дополнительные требования

Похожие вакансии