6-6 · Kapitel 6 · 7 Min. Lesezeit

Warum manuelle Checks nach dem Deployment scheitern (und was stattdessen zu tun ist)

Manuelle Post-Deploy-Checks skalieren nicht. Erfahre, warum sie fehlschlagen und wie du mit Smoke Tests und synthetischen Transaktionen zuverlässige automatisierte Prüfungen aufbaust.

Warum manuelle Checks nach dem Deployment scheitern (und was stattdessen zu tun ist)

Du hast gerade eine neue Version deployed. Du öffnest den Browser, klickst dich durch ein paar Seiten, prüfst, ob die Datenbank antwortet, und alles sieht gut aus. Du schließt den Tab und machst weiter.

Das funktioniert, wenn du einmal pro Woche deployst. Aber wenn täglich oder mehrmals am Tag deployt wird, wird dieser manuelle Check unzuverlässig. Dieselbe Person kann nicht jedes Mal die exakt gleiche Prüfung durchführen, ohne etwas zu übersehen. Manche Checks werden übersprungen, weil es eilig ist. Andere werden hastig erledigt, weil das nächste Meeting beginnt. Wieder andere gelten als „in Ordnung", weil „es beim letzten Mal ja auch funktioniert hat".

Das Problem ist nicht, dass Leute nachlässig sind. Das Problem ist, dass manuelle Wiederholung nicht skaliert. Und wenn ein fehlerhaftes Deployment durchrutscht, weil jemand vergessen hat, einen Endpunkt zu prüfen, zahlt das gesamte Team dafür.

Die wahren Kosten manueller Post-Deploy-Checks

Manuelle Checks nach dem Deployment schaffen versteckte Risiken, die Teams oft unterschätzen.

Erstens hängen sie vom Gedächtnis ab. Die Person, die den Check durchführt, muss sich an jeden Schritt erinnern: welche Endpunkte aufzurufen sind, welche Antworten zu erwarten sind, welche Datenbankabfragen zu überprüfen sind, welche Hintergrundjobs zu bestätigen sind. Das Gedächtnis ist unzuverlässig, besonders unter Druck.

Zweitens variieren sie zwischen Personen. Ein Entwickler prüft vielleicht den Login-Flow und die Suchfunktion. Ein anderer prüft den Checkout-Prozess und das Admin-Panel. Keiner prüft alles, und beide gehen davon aus, dass der andere den Rest abgedeckt hat.

Drittens hinterlassen sie keine Beweise. Wenn ein manueller Check bestanden wird, gibt es keine Aufzeichnung darüber, was geprüft wurde, wie die Antwort aussah oder ob der Check gründlich war. Wenn eine Stunde später etwas kaputtgeht, kannst du nicht auf die Check-Ergebnisse zurückblicken, um zu verstehen, was sich geändert hat.

Viertens erzeugen sie einen Engpass. Die Person, die die Checks durchführen kann, wird zum Gatekeeper. Deployments warten auf sie. Releases verzögern sich. Und wenn diese Person nicht verfügbar ist, deployt das Team entweder ohne Checks oder gar nicht.

Post-Deploy-Checks automatisieren: Die Kernidee

Die Lösung ist einfach: Nachdem deine Pipeline eine neue Version deployed hat, sollte sie sofort eine vordefinierte Reihe von Checks ausführen. Diese Checks laufen jedes Mal auf die gleiche Weise ab, ohne dass sich jemand merken muss, was zu prüfen ist.

Das folgende Flussdiagramm stellt den manuellen Ansatz dem hier beschriebenen automatisierten Ansatz gegenüber:

flowchart TD subgraph Manual[Manuelle Post-Deploy-Checks] A[Neue Version deployen] --> B[Browser öffnen] B --> C[Durch Seiten klicken] C --> D[Datenbank prüfen] D --> E[Annehmen, dass alles in Ordnung ist] E --> F[Tab schließen, weitermachen] F --> G[Probleme später entdeckt] end subgraph Automated[Automatisierte Post-Deploy-Checks] H[Neue Version deployen] --> I[Pipeline startet Smoke-Tests] I --> J[Pipeline führt synthetische Transaktionen aus] J --> K{Alle Checks bestanden?} K -->|Ja| L[Release als gesund bestätigt] K -->|Nein| M[Team sofort alarmieren] M --> N[Spezifischen Fehler untersuchen] end Manual -.->|Unzuverlässig| O[Team zahlt den Preis] Automated -.->|Zuverlässig| P[Team hat Beweise]

Hier geht es nicht darum, jede Funktion zu testen. Es geht darum, zu überprüfen, ob die kritischsten Funktionen nach dem Deployment noch funktionieren. Die Checks bestätigen, dass die Anwendung lebt, erreichbar ist und sich auf der Ebene korrekt verhält, die für die Benutzer am wichtigsten ist.

Die Pipeline führt diese Checks automatisch aus. Wenn alle bestanden werden, hat das Team den Nachweis, dass die neue Version gesund ist. Wenn ein Check fehlschlägt, alarmiert die Pipeline das Team sofort, und es weiß genau, welcher Teil Aufmerksamkeit benötigt.

Hier ist ein minimales Beispiel, wie ein solches automatisiertes Check-Skript aussehen könnte:

#!/bin/bash
# post-deploy-check.sh
# Wird nach dem Deployment ausgeführt, um die Gesundheit der Anwendung zu überprüfen.

BASE_URL="https://your-app.example.com"
PASS=0
FAIL=1

# Smoke-Test: Hauptendpunkt prüfen
HTTP_CODE=$(curl -s -o /dev/null -w "%{http_code}" "$BASE_URL")
if [ "$HTTP_CODE" -ne 200 ]; then
  echo "FAIL: Hauptendpunkt gab $HTTP_CODE zurück"
  exit $FAIL
fi
echo "PASS: Hauptendpunkt ist erreichbar"

# Synthetische Transaktion: Benutzer-Login simulieren
LOGIN_RESPONSE=$(curl -s -X POST "$BASE_URL/api/login" \
  -H "Content-Type: application/json" \
  -d '{"username":"test_user","password":"test_pass"}')

if echo "$LOGIN_RESPONSE" | grep -q '"token"'; then
  echo "PASS: Login-Flow funktioniert"
else
  echo "FAIL: Login-Flow fehlgeschlagen"
  exit $FAIL
fi

echo "Alle Checks bestanden. Deployment ist gesund."
exit $PASS

Zwei Arten automatisierter Checks für den Einstieg

Smoke-Tests

Smoke-Tests sind die einfachste Form automatisierter Post-Deploy-Checks. Sie überprüfen, ob die Anwendung läuft und auf grundlegende Anfragen reagiert.

Ein Smoke-Test könnte prüfen:

Kann die Anwendung Netzwerkverbindungen annehmen?
Liefert der Hauptendpunkt einen 200-Statuscode zurück?
Kann die neue Version die Datenbank erreichen?
Antworten die kritischen API-Routen?

Diese Checks sind einfach zu schreiben. Es sind nur Skripte, die deine Pipeline nach dem Deploy-Schritt aufruft. Wenn ein Check fehlschlägt, stoppt die Pipeline und benachrichtigt das Team.

Smoke-Tests müssen nicht umfassend sein. Sie müssen nur offensichtliche Fehler erkennen: ein Dienst, der nicht gestartet ist, eine Datenbankverbindung, die unterbrochen wurde, eine Konfiguration, die fehlt.

Synthetische Transaktionen

Synthetische Transaktionen gehen einen Schritt weiter. Sie simulieren Schritt für Schritt, was ein echter Benutzer tut.

Für eine E-Commerce-Anwendung könnte eine synthetische Transaktion wie folgt aussehen:

Die Produktlistenseite öffnen
Auf ein bestimmtes Produkt klicken
Es in den Warenkorb legen
Zur Kasse gehen
Versanddetails ausfüllen
Die Bestellung bestätigen

Jeder Schritt prüft, ob die Antwort korrekt ist. Wenn die Warenkorbseite einen Fehler zurückgibt oder der Checkout nicht lädt, schlägt die synthetische Transaktion fehl, und die Pipeline weiß, dass etwas nicht stimmt.

Synthetische Transaktionen erfordern mehr Einrichtung als Smoke-Tests. Du musst Skripte schreiben, die das Benutzerverhalten nachahmen. Aber sie erkennen Probleme, die Smoke-Tests übersehen, wie unterbrochene Workflows oder fehlende Daten in einem mehrstufigen Prozess.

Was zuerst automatisieren

Versuche nicht, alles auf einmal zu automatisieren. Beginne mit den Funktionen, die die meisten Schmerzen verursachen würden, wenn sie kaputtgehen.

Frage dein Team: „Wenn wir deployen und diese Funktion funktioniert nicht mehr, wie schnell würden Benutzer es merken? Wie viel Schaden würde es anrichten?"

Die Antworten sagen dir, was du zuerst automatisieren solltest. Für die meisten Anwendungen bedeutet das:

Authentifizierung und Login
Suchfunktion
Kern-Transaktionsflüsse (Checkout, Zahlung, Buchung)
Dateneingabeformulare
API-Endpunkte, von denen andere Dienste abhängen

Beginne mit einem oder zwei Szenarien. Führe sie nach jedem Deployment konsistent aus. Füge im Laufe der Zeit weitere hinzu, wenn du siehst, was kaputtgeht und was wichtig ist.

Eine kleine Menge von Checks, die jedes Mal laufen, ist weitaus wertvoller als eine große Suite, die aufgrund flaky Tests oder irrelevanter Szenarien ständig fehlschlägt.

Ergebnisse sichtbar machen

Automatisierte Checks sind nur nützlich, wenn ihre Ergebnisse sichtbar und handlungsorientiert sind.

Deine Pipeline sollte das Ergebnis jedes Checks aufzeichnen. Speichere die Ergebnisse zusammen mit den Deployment-Logs. Zeige sie auf einem Dashboard an, das das Team sehen kann.

Wenn alle Checks bestanden werden, hat das Team einen klaren Nachweis, dass das Deployment gesund ist. Wenn ein Check fehlschlägt, weiß das Team sofort, welcher Teil des Systems untersucht werden muss.

Diese Sichtbarkeit verändert die Arbeitsweise des Teams. Anstatt sich zu fragen, ob ein Deployment gut gelaufen ist, haben sie Daten. Anstatt sich auf das Gedächtnis von jemandem zu verlassen, haben sie Aufzeichnungen. Anstatt Probleme durch Benutzerbeschwerden zu entdecken, fangen sie sie Minuten nach dem Deployment ab.

Der nächste Schritt: Von der Verifikation zur Entscheidung

Sobald automatisierte Post-Deploy-Checks zur Routine werden, ist der nächste logische Schritt, sie als Gate zu verwenden. Wenn die Checks fehlschlagen, kann die Pipeline automatisch verhindern, dass das Release die Benutzer erreicht. Wenn sie bestanden werden, wird das Release fortgesetzt.

Hier geht es nicht darum, menschliches Urteilsvermögen zu eliminieren. Es geht darum, die Notwendigkeit zu beseitigen, dass Menschen jedes Mal dieselbe manuelle Überprüfung wiederholen müssen. Das Team entscheidet, was geprüft wird. Die Pipeline führt diese Checks konsistent aus. Und das Team konzentriert sich auf die Ausnahmen, nicht auf die Routine.

Praktische Checkliste für den Einstieg

Bevor du ein vollständiges Automatisierungssystem aufbaust, fange klein an:

Identifiziere die drei kritischsten benutzernahen Funktionen in deiner Anwendung
Schreibe ein Smoke-Test-Skript, das prüft, ob deine Hauptendpunkte korrekt antworten
Schreibe ein synthetisches Transaktionsskript, das einen Kernbenutzerflow simuliert
Füge diese Checks zu deiner Deployment-Pipeline hinzu, direkt nach dem Deploy-Schritt
Konfiguriere die Pipeline so, dass sie das Team benachrichtigt, wenn ein Check fehlschlägt
Führe die Checks eine Woche lang aus und notiere Fehlalarme oder Lücken
Passe die Checks basierend auf dem Gelernten an
Füge in der folgenden Woche ein weiteres Szenario hinzu

Die konkrete Erkenntnis

Manuelle Post-Deploy-Checks funktionieren, bis sie es nicht mehr tun. Sobald dein Team mehr als einmal am Tag deployt oder ein fehlerhaftes Deployment durchrutscht, weil jemand vergessen hat, eine Sache zu prüfen, brauchst du Automatisierung.

Beginne mit Smoke-Tests für die grundlegende Verfügbarkeit. Füge synthetische Transaktionen für kritische Benutzerflows hinzu. Mache die Ergebnisse sichtbar. Und lass die Pipeline die Wiederholung übernehmen, damit sich dein Team auf das konzentrieren kann, was wirklich menschliche Aufmerksamkeit erfordert.

Das Ziel ist nicht, menschliche Aufsicht zu eliminieren. Das Ziel ist, die Art von Aufsicht zu eliminieren, die passiert, weil jemand sich zum hundertsten Mal daran erinnern musste, dasselbe zu prüfen.