章 30 · 部 5

Recovery and Rollback Infrastructure

A focused chapter on recovery and rollback infrastructure, with practical delivery concerns, trade-offs, and the operational questions behind CI/CD work.

30-1

インフラストラクチャのロールバックがアプリケーションのロールバックと全く異なる理由

アプリケーションのロールバックはコードの差し替えで済むが、インフラのロールバックはステートフルなリソースや依存関係により複雑。本記事ではその違いと回復計画の重要性を解説する。

2 分 30-2

インフラ変更が失敗したときの復旧オプション：再適用からフェイルオーバーまで

Terraform applyが成功したのに障害が発生。そんな時に備える4つの復旧戦略（旧状態の再適用、スナップショット復元、DNSロールバック、フェイルオーバー）を比較・解説します。

2 分 30-3

ブラスト半径：実際に必要な復旧戦略を判断する方法

インフラ変更にはリスクが伴います。小さなリスクもあれば、ビジネス全体を停止させるものもあります。重要なのは、変更を行うかどうかではなく、問題発生時にどれだけ迅速に復旧できるかです。本記事では、ブラスト半径の概念を用いて、リスクの大きさに応じた適切な復旧戦略の選び方を解説します。

2 分 30-4

高リスクなインフラ変更のためのリカバリープラン

本番環境を壊す可能性のあるインフラ変更に備え、実践的で実行可能なリカバリープランの立て方を解説。具体的なコマンド例、承認プロセス、事前チェックリストを網羅。

2 分 30-5

復旧計画が実践なしに失敗する理由

共有フォルダに置かれたままの復旧計画は、実際の障害時には役に立ちません。ゲームデイ、カオスエンジニアリング、プロセスシミュレーションを通じて計画を実践的に検証する方法を解説します。

2 分 30-6

インフラ変更が失敗したときの段階的な復旧手順

パイプラインが赤くなった。Terraform applyが15分経っても終わらない。監視ダッシュボードには5つのリソース作成失敗が表示され、ロードバランサーのヘルスチェックは503を返している。この記事では、インフラ変更が失敗した際の実践的な復旧手順を解説します。

2 分 30-7

復旧後に何が起きるか：インフラ障害をプロセス改善に変える方法

インシデント解決後、多くのチームは貴重な教訓を逃します。本記事では、非難のないポストモーテム、具体的な修正、実用的なドキュメント化を通じて、障害をプロセス改善に変える方法を解説します。

2 分