Recovery and Rollback Infrastructure
A focused chapter on recovery and rollback infrastructure, with practical delivery concerns, trade-offs, and the operational questions behind CI/CD work.
インフラストラクチャのロールバックがアプリケーションのロールバックと全く異なる理由
アプリケーションのロールバックはコードの差し替えで済むが、インフラのロールバックはステートフルなリソースや依存関係により複雑。本記事ではその違いと回復計画の重要性を解説する。
インフラ変更が失敗したときの復旧オプション:再適用からフェイルオーバーまで
Terraform applyが成功したのに障害が発生。そんな時に備える4つの復旧戦略(旧状態の再適用、スナップショット復元、DNSロールバック、フェイルオーバー)を比較・解説します。
ブラスト半径:実際に必要な復旧戦略を判断する方法
インフラ変更にはリスクが伴います。小さなリスクもあれば、ビジネス全体を停止させるものもあります。重要なのは、変更を行うかどうかではなく、問題発生時にどれだけ迅速に復旧できるかです。本記事では、ブラスト半径の概念を用いて、リスクの大きさに応じた適切な復旧戦略の選び方を解説します。
高リスクなインフラ変更のためのリカバリープラン
本番環境を壊す可能性のあるインフラ変更に備え、実践的で実行可能なリカバリープランの立て方を解説。具体的なコマンド例、承認プロセス、事前チェックリストを網羅。
復旧計画が実践なしに失敗する理由
共有フォルダに置かれたままの復旧計画は、実際の障害時には役に立ちません。ゲームデイ、カオスエンジニアリング、プロセスシミュレーションを通じて計画を実践的に検証する方法を解説します。
インフラ変更が失敗したときの段階的な復旧手順
パイプラインが赤くなった。Terraform applyが15分経っても終わらない。監視ダッシュボードには5つのリソース作成失敗が表示され、ロードバランサーのヘルスチェックは503を返している。この記事では、インフラ変更が失敗した際の実践的な復旧手順を解説します。
復旧後に何が起きるか:インフラ障害をプロセス改善に変える方法
インシデント解決後、多くのチームは貴重な教訓を逃します。本記事では、非難のないポストモーテム、具体的な修正、実用的なドキュメント化を通じて、障害をプロセス改善に変える方法を解説します。