SRE Team Lead

з/п не указана

Требуемый опыт работы: 3–6 лет

Полная занятость, удаленная работа

Мы в Skyeng меняем традиционное образование с помощью технологий. Сейчас в нашей IT-команде более 350 сотрудников, включая 160+ разработчиков. Наша разработка — это 40 независимых и быстрых продуктовых команд с опытными тимлидами и продактами.

Наши продукты — это онлайн-платформа Vimbox, Android и IOS-приложения, словари, браузерные расширения, внутренние CRM и финансовые системы. В 2020 году Skyeng вошел в топ 10 IT-компаний России.

Наша инфраструктура — это более 200 железных серверов и виртуальные машины в AWS и Яндексе. Мониторинг у нас построен на основе Prometheus, New Relic, Sentry, Kibana. А деплой с помощью Jenkins. Инфраструктура разработки - классический LNPP стек (для полнотекстового поиска: Linux, Nginx, PostgreSQL, PHP). Мы почти завершили миграцию на docker инфраструктуру на базе docker swarm и в 2021 перейдем на kubernetes.

Для общения и документации у нас современные инструменты: Slack, Hangouts, JIRA, Confluence, Github.

Мы не любим бюрократии: мы не боимся ошибаться, а если так происходит, то проводим post mortem, разбираем ошибки и работаем дальше.

Чем предстоит заниматься: повысить стабильность Skyeng

  • Построить мониторинг и алертинг на основании бизнес метрик;
  • Наладить процесс дежурства 24/7 с быстрыми фиксами, от дежурного инженера и эскалациями, если проблема не решается дежурным. Написание регламентов для дежурных;
  • Разбор инцидентов, предложение мер о недопущении инцидентов;
  • Составление модели рисков для приложений Skyeng, предложение как снижать потери для бизнеса от падений;
  • Консультирование команд разработки о том как строить отказоустойчивые приложения.

Требования

  • Управленческие

    • Опыт управления небольшим коллективом технических специалистов (1-2 человека) от года;
    • Умение приоритезировать задачи, аргументировать свою позицию;
    • Навык убеждать других делать его задачу;
    • Умение слышать других.
  • Бизнесовые

    • Опыт работы с бизнес метриками;
    • Понимание бизнес ценности процесса мониторинга;
    • Возможность разобраться как строится модель экономики компании: что в первую очередь следует мониторить;
  • Технические навыки

    • Опыт работы с веб сервисами на linux. Умение экстренной починки: удалить лишние логи, если место закончилось, убить процесс, который съел все оперативку и т. д.;
    • Алертинг: как добиться баланса между количеством шума и скоростью реакции;
    • Умение рассказать во что будет упираться процесс мониторинга+алертинга на разных этапах построения мониторинга;
    • Понимание принципов работы средств мониторинга (опыт 2 года):
      • Time-series database;
      • Умение объяснить как отличить шум от сигнала;
      • Опыт с grafana, prometheus обязательный от 2х лет;
      • Опыт с graphite, zabbix — будет плюсом.
    • Системное мышление:
      • Умение выделить надсистему для вверенной системы;
      • Умение выделить ключевых заинтересованных лиц и согласовать требования к вверенной системе.
    • Опыт построения мониторинга на основании бизнес метрик;
    • Умение вручную построить дашборд в графане по имеющимся данным или запросить данные у разработки.

    Пара причин работать с нами:

    • Меняем образование — это важная цель в глобальном масштабе, делать социально-важное нереально круто, попробуй!
    • Сильная команда. Средний уровень разработчиков в компании — senior. Есть чему поучиться, есть с кем обсудить то, что уже знаешь;
    • Уникальный опыт: действительно сложные проблемы, которые можно встретить только в нагруженных проектах и сильно растущих компаниях;
    • Учимся сами: регулярные доклады разработчиков внутри компании, участие и выступления на конференциях;
    • Хакатоны и командные сборы в разных уголках мира — каждая команда выезжает на 2 недели вместе работать и отдыхать, хакатон объединяет всю команду IT;
    • Скидка 50% на уроки английского каждому сотруднику и другу;
    • Конференции, профессиональные курсы, выбирай и учись с оплатой от компании;
    • Можно влиять на компанию и её процессы;
    • Оплачиваемые отпуск и больничный;
    • Стабильная заработная плата два раза в месяц;
    • Работа в большой и амбициозной IT-компании с процессами, но без бюрократии;
    • Можно расти вместе со школой. Skyeng растет в 3 раза каждый год, сотрудники растут быстрее;
    • Можно работать удаленно из любой точки мира, а также из нашего уютного офиса в Москве (м. Таганская). Выбор за тобой.
 Доступно соискателям с инвалидностью 

Ключевые навыки

Linux
grafana
prometheus
Zabbix
Graphite

Контактная информация

Вакансия опубликована 12 ноября 2020 в Санкт-Петербурге

Похожие вакансии