25-7 · Kapitel 25 · 6 Min. Lesezeit

Wenn Infrastrukturänderungen die Produktion lahmlegen: Wiederherstellung nach IaC-Katastrophen

Erfahren Sie, wie Sie nach fehlgeschlagenen Infrastrukturänderungen schnell in einen stabilen Zustand zurückkehren. State-Management, Konfigurationsversionierung und automatisierte Rollbacks für Terraform, Pulumi und OpenTofu.

Wenn Infrastrukturänderungen die Produktion lahmlegen: Wiederherstellung nach IaC-Katastrophen

Sie haben alles richtig gemacht. Der Terraform-Plan wurde von zwei Senior Engineers geprüft. Die Änderung hat alle Policy-Checks in Ihrer Pipeline bestanden. Sie lief drei Tage lang sauber im Staging. Dann haben Sie sie in der Produktion ausgerollt – und innerhalb von zehn Minuten meldeten die ersten User Fehler.

Das ist die Realität von Infrastrukturänderungen. Egal wie gründlich Ihr Review-Prozess ist, manche Probleme zeigen sich erst unter echtem Traffic. Eine Abhängigkeit, die Sie übersehen haben. Ein Konfigurationsunterschied zwischen Staging und Produktion, der irgendwie durchgerutscht ist. Eine subtile Wechselwirkung zwischen Ihrer Änderung und einer bestehenden Ressource, die niemand vorhergesehen hat.

Wenn das passiert, braucht Ihr Team vor allem eines: die Fähigkeit, schnell in einen bekannten, funktionierenden Zustand zurückzukehren. Das ist Infrastruktur-Rollback – und es funktioniert anders als das Zurücksetzen von Anwendungscode.

Warum Infrastruktur-Rollback anders ist

Ein Anwendungs-Rollback bedeutet meist, eine vorherige Version des Codes auszurollen. Die Server, das Netzwerk, das Datenbankschema – sie bleiben alle gleich. Sie tauschen einfach das Binary oder das Container-Image aus.

Infrastruktur-Rollback ist nicht so einfach. Infrastruktur umfasst Server, Load Balancer, Netzwerkregeln, Datenbankinstanzen, Storage-Volumes und Dutzende anderer Ressourcen, die voneinander abhängen. Nur eine Ressource auf eine alte Version zurückzusetzen, ohne die anderen zu berücksichtigen, kann die Sache verschlimmern, nicht verbessern.

Stellen Sie sich vor, Sie haben eine Security-Group-Regel geändert und gleichzeitig eine Load-Balancer-Konfiguration aktualisiert. Wenn Sie nur die Security Group zurücksetzen, zeigt der Load Balancer möglicherweise auf Instanzen, die von der alten Security Group blockiert werden. Ihr Wiederherstellungsversuch hat gerade einen neuen Ausfall verursacht.

Der Schlüssel zu einem sicheren Infrastruktur-Rollback liegt in zwei Dingen: State-Management und Konfigurationsversionierung.

State-Management: Wissen, was Sie haben

Infrastructure-as-Code-Tools wie Terraform, Pulumi oder OpenTofu führen eine State-Datei. Diese Datei zeichnet jede vom Tool verwaltete Ressource auf, ihre aktuelle Konfiguration und wie die Ressourcen miteinander in Beziehung stehen. Ohne genauen State kann das Tool nicht wissen, was existiert, geschweige denn, wie es geändert werden kann.

State-Dateien sind kritische Assets. Sie müssen sicher gespeichert, zugriffsgeschützt und bei jeder Änderung versioniert werden. Wenn Sie Ihre State-Datei verlieren, verlieren Sie die Fähigkeit, diese Infrastruktur über IaC zu verwalten. Sie sind auf manuelle Wiederherstellung angewiesen und müssen raten, welche Ressourcen existieren und wie sie verbunden sind.

Best Practice ist, den State remote zu speichern – in Cloud Storage, einem Backend-Dienst oder einem dedizierten State-Management-Tool. Lokale State-Dateien auf dem Laptop eines Entwicklers sind eine Katastrophe, die nur darauf wartet, passieren. Die Pipeline sollte immer dieselbe, autoritative State-Quelle verwenden.

Konfigurationsversionierung: Wissen, was Sie hatten

Anwendungscode bekommt Versions-Tags. Infrastrukturkonfiguration braucht dieselbe Behandlung. Jede Änderung an Ihren IaC-Vorlagen, Modulen und Variablendateien sollte mit klaren Markierungen in der Versionskontrolle committed werden.

Wenn Ihr Team sich für ein Rollback entscheidet, sollte es nicht raten müssen, welche Konfiguration zuletzt funktioniert hat. Es sollte auf einen bestimmten Commit oder Tag zeigen können und sagen: "Den hier." Die Pipeline wendet dann diese Version an, unter Verwendung der State-Datei, die zu diesem Zeitpunkt gehört.

Das klingt offensichtlich, aber viele Teams behandeln Infrastrukturkonfiguration als "einfach das Neueste ausrollen", ohne Releases zu taggen. Wenn etwas kaputt geht, suchen sie hektisch nach dem letzten bekannten guten Commit und hoffen, dass niemand zwischendurch eine halbfertige Änderung gepusht hat.

Planung des Rollbacks vor der Anwendung

Der beste Zeitpunkt, ein Rollback zu planen, ist bevor Sie die Änderung anwenden. Speichern Sie in Ihrer Pipeline eine Kopie des aktuellen States, bevor Sie den Apply-Schritt ausführen. Wenn die Änderung Probleme verursacht, kann die Pipeline sofort den Apply mit dem gespeicherten State ausführen. Kein Suchen, kein Raten, keine manuellen Schritte.

Dieses vorab geplante Rollback kann automatisiert werden. Führen Sie nach dem Apply Health Checks durch. Wenn die Health Checks fehlschlagen, lösen Sie das Rollback automatisch aus. Ihr Team wird benachrichtigt, aber die Wiederherstellung hat bereits begonnen.

Wenn beispielsweise eine Änderung an einer einzelnen Ressource wie einer EC2-Instanz das Problem verursacht hat, können Sie gezielt diese Ressource ansprechen:

# Aktuellen State speichern, bevor Änderungen angewendet werden
terraform state pull > state-backup-$(date +%Y%m%d-%H%M%S).json

# Vorherige Konfiguration nur für die problematische Ressource anwenden
terraform apply -auto-approve -target=aws_instance.web

# Rollback mit Health Checks verifizieren
terraform output instance_health

Nicht jede Infrastrukturänderung lässt sich sauber zurücksetzen. Das Löschen eines Datenbank-Volumes, die Änderung eines Netzwerkschemas, von dem andere Ressourcen abhängen, oder die Modifikation eines gemeinsam genutzten Dienstes – diese Aktionen hinterlassen möglicherweise keinen sauberen Rückweg. Für solche Änderungen brauchen Sie zusätzliche Strategien.

Wenn Rollback nicht ausreicht

Manche Infrastrukturänderungen sind von Natur aus destruktiv. Wenn Ihre Änderung ein Datenbank-Volume entfernt hat, wird das Zurücksetzen der IaC-Konfiguration die Daten nicht zurückbringen. Das Volume ist weg. Die Konfigurationsdatei sagt, dass es existieren sollte, aber die eigentliche Ressource existiert nicht mehr bei Ihrem Cloud-Anbieter.

Das folgende Flussdiagramm zeigt den Entscheidungsprozess, wenn eine Änderung die Produktion lahmlegt:

flowchart TD A[Änderung legt Produktion lahm] --> B{Kann die Änderung sauber zurückgesetzt werden?} B -->|Ja| C[Vorherigen State aus gespeicherter State-Datei wiederherstellen] B -->|Nein| D{Wurde vor der Änderung ein Snapshot erstellt?} D -->|Ja| E[Snapshot wiederherstellen, dann alte Konfiguration anwenden] D -->|Nein| F{Läuft die alte Umgebung noch?} F -->|Ja| G[Traffic zurück zur alten Umgebung leiten] F -->|Nein| H[Neue Ressourcen aus letzter bekannter Konfiguration provisionieren] C --> I[Health Checks ausführen] E --> I G --> I H --> I I --> J{Health Checks bestanden?} J -->|Ja| K[Wiederherstellung abgeschlossen] J -->|Nein| L[An den Bereitschaftsingenieur eskalieren]

Für diese Fälle brauchen Sie Wiederherstellungsstrategien, die über ein einfaches Rollback hinausgehen:

Erstellen Sie Snapshots, bevor Sie destruktive Änderungen vornehmen. Ein Datenbank-Snapshot, der direkt vor einer Schema-Migration erstellt wurde, gibt Ihnen einen Fallback-Punkt.
Nutzen Sie Blue-Green- oder Canary-Deployments für die Infrastruktur. Lassen Sie die alte Umgebung laufen, bis Sie sicher sind, dass die neue funktioniert.
Provisionieren Sie Infrastruktur parallel, anstatt sie direkt zu ändern. Erstellen Sie die neuen Ressourcen neben den alten und leiten Sie den Traffic erst um, wenn alles bereit ist.

Diese Strategien kosten mehr und sind komplexer, aber sie sind günstiger als ein längerer Ausfall.

Testen Sie Ihr Rollback

Ein Rollback-Plan, der nie getestet wurde, ist kein Plan. Es ist ein Wunsch.

Führen Sie Rollback-Übungen in Ihrer Staging-Umgebung durch. Wenden Sie eine Änderung an und lösen Sie dann bewusst das Rollback aus. Messen Sie, wie lange es dauert. Prüfen Sie, ob die State-Datei korrekt wiederhergestellt wurde. Verifizieren Sie, dass alle Ressourcen in ihre vorherige Konfiguration zurückgekehrt sind. Bestätigen Sie, dass die Anwendung nach dem Rollback korrekt funktioniert.

Machen Sie das regelmäßig. Alle paar Monate oder immer dann, wenn sich Ihre Infrastruktur-Setup grundlegend ändert. Ziel ist nicht nur, den Mechanismus zu verifizieren, sondern das Vertrauen in Ihr Team zu stärken. Wenn die Produktion um 2 Uhr morgens ausfällt, soll Ihr Team genau wissen, was zu tun ist – und nicht zum ersten Mal die Dokumentation lesen.

Nach dem Rollback: Lernen und dokumentieren

Sobald das Rollback abgeschlossen und die Produktion stabil ist, beginnt die eigentliche Arbeit. Finden Sie heraus, was schiefgelaufen ist. War es eine fehlende Abhängigkeit? Eine Konfigurationsdrift zwischen den Umgebungen? Eine Race-Condition in der Apply-Reihenfolge?

Dokumentieren Sie den Vorfall. Welche Änderung wurde angewendet? Was ist kaputtgegangen? Wie wurde es erkannt? Wie lange hat das Rollback gedauert? Was hätte es schneller gemacht? Diese Dokumentation wird zur Grundlage für die Verbesserung Ihrer Pipeline, Ihres Testings und Ihrer Rollback-Verfahren.

Praktische Checkliste für die Rollback-Bereitschaft

State-Dateien werden remote mit Zugriffskontrolle und Versionierung gespeichert
Jede Infrastrukturänderung ist in der Versionskontrolle mit einer Version getaggt
Die Pipeline speichert den aktuellen State vor dem Anwenden von Änderungen
Automatisierte Health Checks laufen nach jedem Apply
Rollback wird automatisch bei fehlgeschlagenen Health Checks ausgelöst
Destruktive Änderungen haben Snapshot- oder parallele Deployment-Strategien
Rollback wird mindestens einmal pro Quartal im Staging getestet
Nach jedem Rollback wird eine Vorfallsdokumentation erstellt und überprüft

Die konkrete Erkenntnis

Infrastruktur-Rollback ist keine Funktion, die Sie später hinzufügen. Es ist eine Design-Entscheidung, die Sie von Anfang an treffen. Planen Sie Ihr State-Management. Versionieren Sie Ihre Konfigurationen. Automatisieren Sie den Rollback-Pfad. Testen Sie ihn, bis er langweilig wird. Wenn die Produktion ausfällt, sollte Ihr Team nicht herausfinden müssen, wie es sich erholt. Es sollte eine Prozedur ausführen, die es ein Dutzend Mal zuvor durchgespielt hat, und genau wissen, wie lange es dauert und was das Ergebnis sein wird.