RndTech Reliability Meetup
Наш митап про надёжность и отказоустойчивость — как делать сервисы устойчивыми, быстро восстанавливаться, почему инциденты это нормально (и даже хорошо) и чем же всё таки отличается Reliability от Resiliency.
Идеально подойдёт:
- Прошареным SRE чтобы расширить кругозор
- Разработчикам, которые хотят делать надёжные сервисы
- Тем, кто только вкатывается или хочет вкатиться в SRE
Программа
Сергей Реусин (SRE Lead, Сбермаркет). "Инженерия устойчивости как основной инструмент выживания вашей организации"
SRE Lead. 5 лет непрерывной практики эксплуатации production-систем, проектирования отказоустойчивых систем, борьбы со сбоями и их качественного анализа. В докладе представлю историю инженерии устойчивости, разницу определений и методов в сравнении с надежностью, стабильностью. Расскажу о применении DORA за рамками ускорения деплоев. Узнаете о ключевых принципах, персонах и сообществе, а также о пересечении методов с другими доменами (медицина, энергетика и т. п.). Как происходило внедрение в СберМаркет — ключевые цели, этапы, успехи и провалы. С чего начать в вашей организации.
Вадим Мартынов (Лид команды надёжности, Яндекс). "Математика надёжности"
Есть много способов повысить надёжность — мы делаем ретраи, срезаем избыточную нагрузку, отключаем необязательные функции, реплицируем сервисы или делаем фолбеки на критичную логику. При системной работе с надёжностью мы учитываем статистику инцидентов и охотимся за низко висящими фруктами. Но из чего складывается надёжность и как её посчитать? Посмотрим, как влияют наши решения на надёжность системы и как учитывать это при разработке.
И, конечно, нас ждут кулуарные обсуждения, афтерпати в Квадрате и много разговоров формата "а как у вас" и "а вот когда у нас dns лёг…". Всё это с традиционным гостеприимством и лёгкой неорганизованностью RndTech.