← Все вакансии

SRE в One Cloud

1 день на сайте
Единые облачные технологии
Москва гибкий удалённо Системное администрирование полный Senior Middle
Откликнуться на сайте Единые облачные технологии →

One Cloud — центральное внутреннее облако компании собственной разработки, технологический фундамент для всех продуктов компании. Мы предоставляем единую среду запуска приложений, хранилищ, баз данных и любых других сервисов.

Сейчас One Cloud - это ~30 000 серверов в 14 дата центрах, загрузка более 1 000 000 процессорных ядер, объем хранилища в 15 Петабайт и 400 Тбит/сек по сети.

Мы ищем Site Reliability Engineer, готовых разделить с нами задачи по эксплуатации, инцидент-менеджменту, R&D, а также принять технический вызов кратного роста Облака и амбициозности поставленных перед командой задач.

Перед командой стоят задачи развития и масштабирования, повышения надежности и наблюдаемости, автоматизации рутины, разработки внутренних инструментов.

Стек: Linux, Python, Golang, CFEngine, AWX.

Задачи

  • Эксплуатировать парк серверов облака (в том числе bare metal) — более 30 000 хостов
  • Постоянно обновлять парк серверов
  • Осуществлять переезды между датацентрами
  • Управлять инцидентами — в связке с командами мониторинга и разработки устранять сбои и предотвращать их повторение
  • Автоматизировать процессы эксплуатации и оркестрации — при наших объёмах задачи решаются через код
  • Участвовать в разработке и внедрении новой функциональности облака.

Требования

  • Коммерческий опыт работы в релевантной роли SRE, DevOps, системного инженера от 3х лет
  • Опыт работы с серверной инфраструктурой на базе Linux
  • Глубокое понимание как работает ОС на базе linux и как работает ядро linux
  • Умение в troubleshooting
  • Опыт работы с сетью — iptables, BGP, VRRP
  • Опыт работы с SCM — Puppet, Salt, Ansible и тд
  • Опыт автоматизации на Bash
  • Умение программировать

Будет плюсом

  • Опыт работы с системами на базе RHEL
  • Опыт работы с веб-хостингом — nginx, серверы приложений, MySQL, Postgres
  • Опыт работы с CFEngine, Cassandra, Zabbix и Vault;
  • Знание Golang и Java.
python linux