← Все вакансии

Руководитель команды CUDA-инференса в Автономный транспорт

Мы ускоряем инференс нейронных сетей для задач автономного вождения — моделей восприятия сцены и планирования, которые работают непосредственно на бортовом железе автомобиля. ML-команды отвечают за обучение и качество моделей. Наша задача — обеспечить эффективное выполнение моделей на целевых платформах с минимальной потерей точности.

Основной стек: PyTorch → ONNX → TensorRT, а также внутренняя инфраструктура профилирования, экспериментов и performance-аналитики. Фокус направления — то, как именно выполняются вычисления на GPU и других ускорителях, и достижение измеримого ускорения в end-to-end сценариях. Роль предполагает руководство направлением низкоуровневой оптимизации инференса, формирование технического вектора команды и участие в ключевых performance-решениях.

Задачи и обязанности

Руководство командой CUDA-оптимизации инференса

People management, формирование технических планов и приоритетов, контроль исполнения проектов и ответственность за достижение измеримых результатов по latency, throughput и эффективности использования памяти на целевом железе.

Проектирование и оптимизация вычислительных ядер

Разработка и оптимизация CUDA-kernel и fusion операций для ключевых блоков моделей (matmul, conv, attention и др.), снижая memory traffic и launch overhead. Стремление к устойчивому ускорению в end-to-end сценариях.

Работа с архитектурой GPU

Эффективное использование memory hierarchy, layout данных, tiling-подходы, tensor cores и механизмы повышения occupancy. Системный анализ bottleneck с помощью Nsight и других профилировщиков и формирование вариантов оптимизаций с учётом ограничений железа.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Требования

  • Имеете сильный опыт CUDA performance engineering
  • Работали с kernel для matmul/conv/attention
  • Хорошо знаете C++
  • Понимаете memory hierarchy GPU и cost model вычислительных операций
  • Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
  • Способны на техническое лидерство или управление командой
  • Умеете аргументировать performance-решения и работать в кросс-командной среде

Дополнительные требования

  • Работали с CUTLASS / Triton / кастомными inference-движками
  • Оптимизировали модели под конкретные GPU-архитектуры
  • Работали с quantization / mixed precision
  • Строили roofline-модели или latency/bandwidth-оценки
  • Знаете о fusion-подходах и graph-level оптимизациях
Python PyTorch
Откликнуться →