Руководитель команды CUDA-инференса в Автономный транспорт
Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены и планирования, которые работают непосредственно на бортовом железе автомобиля. ML-команды отвечают за обучение и качество моделей. Наша задача — обеспечить эффективное выполнение моделей на целевых платформах с минимальной потерей точности.
Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура профилирования, экспериментов и performance-аналитики. Фокус направления — то, как именно выполняются вычисления на GPU и других ускорителях, и достижение измеримого ускорения в end-to-end сценариях. Роль предполагает руководство направлением низкоуровневой оптимизации инференса, формирование технического вектора команды и участие в ключевых performance-решениях.
Задачи и обязанности
Руководство командой CUDA-оптимизации инференса
People management, формирование технических планов и приоритетов, контроль исполнения проектов и ответственность за достижение измеримых результатов по latency, throughput и эффективности использования памяти на целевом железе.
Проектирование и оптимизация вычислительных ядер
Разработка и оптимизация CUDA-kernel и fusion операций для ключевых блоков моделей (matmul, conv, attention и др.), снижая memory traffic и launch overhead. Стремление к устойчивому ускорению в end-to-end сценариях.
Работа с архитектурой GPU
Эффективное использование memory hierarchy, layout данных, tiling-подходы, tensor cores и механизмы повышения occupancy. Системный анализ bottleneck с помощью Nsight и других профилировщиков и формирование вариантов оптимизаций с учётом ограничений железа.
Больше о бэкенде в Яндексе — в канале Yandex for Backend
Требования
- Имеете сильный опыт CUDA performance engineering
- Работали с kernel для matmul/conv/attention
- Хорошо знаете C++
- Понимаете memory hierarchy GPU и cost model вычислительных операций
- Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
- Способны на техническое лидерство или управление командой
- Умеете аргументировать performance-решения и работать в кросс-командной среде
Дополнительные требования
- Работали с CUTLASS / Triton / кастомными inference-движками
- Оптимизировали модели под конкретные GPU-архитектуры
- Работали с quantization / mixed precision
- Строили roofline-модели или latency/bandwidth-оценки
- Знаете о fusion-подходах и graph-level оптимизациях