Руководитель группы инфраструктурной разработки YDB
[YDB](https://ydb.tech/ru/) — это реляционная база данных: распределённая, масштабируемая, отказоустойчивая. Кроме того, YDB ещё и платформа. Мы предлагаем пользователям не только надёжные транзакции поверх таблиц, но и готовые решения на основе самого движка: персистентные очереди, федеративные запросы, сетевые диски для виртуальных машин (Yandex Network Block Store) и другие.
YDB используется в Маркете, Такси, Финтехе, Алисе и других сервисах Яндекса. Мы уже умеем обрабатывать миллионы запросов в секунду и надёжно хранить петабайты данных. На базе YDB построены решения для доставки платёжных данных в биллинг Яндекса и хранения логов в Yandex Cloud.
Команда автоматизации управления распределёнными системами занимается эксплуатацией YDB, тиражированием облаков, автоматизирует развёртывание БД (кластер по кнопке), разрабатывает внутреннюю платформу для нагрузочного тестирования и YDB as a service. Наша глобальная цель — сделать YDB максимально отказоустойчивой и масштабируемой.
Чтобы ближе познакомиться с командой и тем, что мы делаем, можно [задать 10 вопросов SRE]( https://www.youtube.com/watch?v=urvZdgpBhwg).
Задачи и обязанности
Разработка отказоустойчивой инфраструктуры в YDB и вокруг неё
Наши продукты постоянно развиваются, и мы масштабируемся вместе с ними, поэтому хотим запускать новые кластеры «по кнопке» и добиться zero downtime при миграции кластеров. Вместе с этим мы создаём платформу для нагрузочного тестирования YDB, в том числе для переезда на процессоры AMD, внедряем практики IaC (Infrastructure as Code) при реализации CI/CD-процессов.
Создание Internal Developer Platform
Мы улучшаем внутреннюю инфраструктуру для разработчиков YDB, чтобы упростить их работу с базой данных, и делаем собственный Terraform Provider для разработки YDB as a Service в Yandex Cloud и внутри Яндекса. Создаём собственную систему деплоя на основе стратегии blue-green deployment для удобства разработчиков и для минимизации рисков при внедрении новых фич. Мы стремимся обеспечить непрерывный релизный процесс с возможностью отката за минуту.
Универсальный деплой YDB в различных инсталляциях
Сейчас YDB развёртывается в Yandex Cloud, внутреннем облаке Яндекса и на железных серверах, но механика развёртывания в каждой среде своя. Наша цель — сделать так, чтобы развёртывание и обновление баз данных не зависело от среды. Для этого мы развиваем YDB Control Plane — сервис, который управляет жизненным циклом баз данных внутри Яндекса. Вам предстоит научить его взаимодействовать с Yandex Cloud, Yandex Deploy и BareMetal, чтобы для YDB не было разницы, где разворачиваться.
Руководство командой
Вы будете отвечать не только за технический результат, но и за людей внутри группы.
Процессы и delivery
Вам предстоит формировать и развивать команду, планировать её работу: декомпозировать задачи, расставлять приоритеты, контролировать сроки. Вы будет выстраивать и улучшать инженерные процессы, проводить постмортемы и ретроспективы, участвовать в архитектурных обсуждениях, взаимодействовать со смежными командами, продуктовыми и бизнес-стейкхолдерами.
Больше о разработке в Яндексе — в канале Yandex for Developers
Требования
- Руководили командой разработки или эксплуатации от трёх лет
- Умеете писать код на Go, Python или С++
- Ориентируетесь в Linux на уровне администратора: знакомы с Ubuntu и Debian, CentOS, Astra Linux
- Разбираетесь в TCP/IP-модели, имеете представление о протоколах HTTP и gRPC
Дополнительные требования
- Работали с Terraform, Ansible
- На базовом уровне знакомы с iptables
- Строили CI/CD-процессы и внедряли IaC-практики