Глава 30 · Часть 5

Recovery and Rollback Infrastructure

A focused chapter on recovery and rollback infrastructure, with practical delivery concerns, trade-offs, and the operational questions behind CI/CD work.

30-1

Почему откат инфраструктуры — это не то же самое, что откат приложения

Откатить приложение — просто: заменил код, и всё. С инфраструктурой так не работает. Состояние, зависимости и необратимые изменения требуют другого подхода. Разбираемся, почему и что делать.

5 мин. 30-2

Когда изменения инфраструктуры приводят к сбою: варианты восстановления — от повторного применения до переключения на резерв

Вы только что выполнили terraform apply на продакшене. Ошибок нет. Но мониторинг сигналит: пользователи не подключаются к БД. Разбираем четыре стратегии восстановления инфраструктуры — от простого отката до полного переключения на стенд-бакап.

6 мин. 30-3

Радиус поражения: как выбрать стратегию восстановления, которая вам действительно нужна

Каждое изменение инфраструктуры несёт риск. Вопрос не в том, стоит ли вносить изменения, а в том, насколько вы готовы восстановиться после сбоя. Разбираем, как оценить радиус поражения и подобрать правильную стратегию отката.

5 мин. 30-4

Планы восстановления для высокорисковых изменений инфраструктуры

Практическое руководство по подготовке планов отката и восстановления для критических изменений инфраструктуры: Terraform, базы данных, сети. Чек-листы, команды, роли.

5 мин. 30-5

Почему ваш план восстановления провалится без практики

План восстановления, который никто не тестировал — это не план, а иллюзия безопасности. Узнайте, как Game Days, Chaos Engineering и симуляции процессов помогают командам DevOps, SRE и инженерам подготовиться к реальным сбоям.

5 мин. 30-6

Когда изменения инфраструктуры ломают всё: пошаговое руководство по восстановлению

Пайплайн покраснел, мониторинг показывает ошибки, а здоровье балансировщика — 503. Пошаговое руководство по восстановлению инфраструктуры после сбоя: от подтверждения проблемы до разбора инцидента.

5 мин. 30-7

Что происходит после восстановления: превращаем сбои инфраструктуры в улучшение процессов

После инцидента команды часто упускают ценные уроки. Узнайте, как проводить пост-мортем без поиска виноватых, классифицировать проблемы и внедрять исправления в CI/CD.

4 мин.