Customer Reliability Engineer в Яндекс 360

Яндекс 360 — это виртуальный офис для работы команды: корпоративная Почта, Диск, Документы, Телемост, Мессенджер, Доски, Трекер и Вики. Мы создаём экосистему, которой пользуются миллионы людей и тысячи компаний.

Наше направление on-premise занимается поставкой этих сервисов в закрытые контуры крупных корпоративных заказчиков (Enterprise). Это сложные распределённые инсталляции, высокие требования к безопасности и надёжности.

Мы ищем CRE-инженера (Customer Reliability Engineer), который станет мостиком между инфраструктурой заказчика и нашей разработкой, обеспечивая надёжную работу наших продуктов на стороне клиента. Вы столкнётесь с разными задачами на инфраструктуре заказчика. Это идеальная роль для тех, кто любит сложные задачи в Linux и хочет видеть бизнес-результат своей работы.

Задачи и обязанности

Решение сложных технических задач

Вам предстоит разбираться в инцидентах, которые не смогла решить первая и вторая линии поддержки. Вы будете анализировать логи, дампы сетевого трафика, поведение ядра Linux и работу баз данных, чтобы находить корневую причину (Root Cause Analysis).

Эксплуатация и внедрение

Вы будете помогать заказчикам разворачивать и обновлять инсталляции Яндекс 360 на их серверах — вам предстоит работать с гетерогенными средами, где «железо» и сеть не под нашим прямым контролем.

Автоматизация работы

Вам нужно будет писать скрипты и инструменты (Python/Bash), а также создавать плейбуки.

Влияние на продукт

Вам предстоит отвечать за надёжность систем, передавать разработчикам качественную обратную связь «с полей», а также помогать адаптировать архитектуру сервисов под реалии on-premise-эксплуатации.

Выстраивание коммуникаций

Вы будете общаться с техническими специалистами и системными администраторами на стороне крупных заказчиков.

Требования

Работали с базами данных: знаете основы администрирования PostgreSQL и S3-совместимых хранилищ, умеете писать простые SQL-запросы и читать логи БД
Глубоко знаете Linux: понимаете, как работает ОС «под капотом» (память, процессы, дисковая подсистема, namespaces), умеете пользоваться strace, tcpdump, lsof, perf
Разбираетесь в сетях: знакомы с моделью OSI, протоколами TCP/IP, знаете, как работает DNS, балансировка нагрузки (L3/L7), умеете диагностировать сетевые проблемы
Умеете программировать: пишете на Python для автоматизации рутины, уверенно владеете Bash
Знакомы с контейнеризацией: понимаете принципы работы Docker/Containerd, имеете опыт работы с оркестраторами (K8s)
Обладаете эмпатией: готовы погружаться в проблемы клиента и не просто «закрывать тикеты», а действительно решать задачу

Дополнительные требования

Работали в роли SRE, DevOps или системного администратора в HighLoad-проектах
Знаете системы управления конфигурациями (Ansible)
Умеете работать с мониторингом (Prometheus, Grafana, ELK-стек)
Понимаете CI/CD-процессы

Python SQL PostgreSQL Docker Kubernetes Ansible Linux CI/CD Grafana Prometheus S3

Грейд Senior

Формат Гибрид

Город Москва

Категория DevOps

Роль SRE

На сайте 11 дн.

Откликнуться на сайте Яндекс / Yandex B2B Tech →

Customer Reliability Engineer в Яндекс 360

Задачи и обязанности

Требования

Дополнительные требования

Похожие вакансии