Recovery and Rollback Infrastructure
A focused chapter on recovery and rollback infrastructure, with practical delivery concerns, trade-offs, and the operational questions behind CI/CD work.
Почему откат инфраструктуры — это не то же самое, что откат приложения
Откатить приложение — просто: заменил код, и всё. С инфраструктурой так не работает. Состояние, зависимости и необратимые изменения требуют другого подхода. Разбираемся, почему и что делать.
Когда изменения инфраструктуры приводят к сбою: варианты восстановления — от повторного применения до переключения на резерв
Вы только что выполнили terraform apply на продакшене. Ошибок нет. Но мониторинг сигналит: пользователи не подключаются к БД. Разбираем четыре стратегии восстановления инфраструктуры — от простого отката до полного переключения на стенд-бакап.
Радиус поражения: как выбрать стратегию восстановления, которая вам действительно нужна
Каждое изменение инфраструктуры несёт риск. Вопрос не в том, стоит ли вносить изменения, а в том, насколько вы готовы восстановиться после сбоя. Разбираем, как оценить радиус поражения и подобрать правильную стратегию отката.
Планы восстановления для высокорисковых изменений инфраструктуры
Практическое руководство по подготовке планов отката и восстановления для критических изменений инфраструктуры: Terraform, базы данных, сети. Чек-листы, команды, роли.
Почему ваш план восстановления провалится без практики
План восстановления, который никто не тестировал — это не план, а иллюзия безопасности. Узнайте, как Game Days, Chaos Engineering и симуляции процессов помогают командам DevOps, SRE и инженерам подготовиться к реальным сбоям.
Когда изменения инфраструктуры ломают всё: пошаговое руководство по восстановлению
Пайплайн покраснел, мониторинг показывает ошибки, а здоровье балансировщика — 503. Пошаговое руководство по восстановлению инфраструктуры после сбоя: от подтверждения проблемы до разбора инцидента.
Что происходит после восстановления: превращаем сбои инфраструктуры в улучшение процессов
После инцидента команды часто упускают ценные уроки. Узнайте, как проводить пост-мортем без поиска виноватых, классифицировать проблемы и внедрять исправления в CI/CD.