35-4 · Kapitel 35 · 6 Min. Lesezeit

Ein Deployment ist erst abgeschlossen, wenn du weißt, dass es funktioniert

Erfahre, warum ein Deployment erst abgeschlossen ist, wenn du weißt, dass die neue Version im Produktivbetrieb zuverlässig läuft. Mit Signalen, Automatisierung und Feedback-Schleifen für DevOps- und SRE-Teams.

Ein Deployment ist erst abgeschlossen, wenn du weißt, dass es funktioniert

Ein Team bringt eine neue Version in die Produktion. Die Pipeline ist grün. Das Deployment-Log zeigt keine Fehler. Alle atmen auf und widmen sich der nächsten Aufgabe. Zwei Stunden später meldet ein Kunde dem Support, dass die Checkout-Seite kaputt ist. Das Team beginnt hektisch mit der Fehlersuche, rollt zurück und verbringt den nächsten Tag damit, herauszufinden, was schiefgelaufen ist.

Dieses Szenario ist alltäglich. Viele Teams betrachten ein Deployment als abgeschlossen, sobald die neue Version auf den Produktionsservern läuft. In der Praxis ist ein Deployment jedoch erst dann vollständig, wenn du weißt, ob diese Version für die Benutzer tatsächlich gut funktioniert.

Produktion ist kein sauberer Raum

Wenn eine neue Version live geht, betritt sie eine Umgebung, die Staging niemals vollständig abbilden kann. Echte Benutzer bringen echte Daten, echte Traffic-Muster und echte Gerätekonfigurationen mit. Es passieren Dinge, die keine Testumgebung vorhergesehen hat.

Eine Abfrage, die in Staging mit tausend Zeilen problemlos lief, kann in der Produktion mit einer Million Zeilen extrem langsam werden. Eine API-Änderung, die abwärtskompatibel schien, kann einen mobilen Client zerstören, der seit sechs Monaten nicht aktualisiert wurde. Eine neue Funktion, die in Design-Reviews großartig aussah, kann Benutzer so sehr verwirren, dass niemand darauf klickt.

Das sind keine Fehler. Das sind Signale. Die Frage ist, ob dein Team darauf vorbereitet ist, sie zu empfangen.

Signale, die zählen

Gute Teams warten nicht darauf, dass Benutzer Probleme melden. Sie richten automatisierte Systeme ein, die Signale aus der Produktion erfassen. Die nützlichsten Signale fallen in einige Kategorien:

Änderungen der Fehlerrate. Wenn die Fehlerrate direkt nach einem Deployment ansteigt, ist wahrscheinlich etwas kaputt. Ein Anstieg um 5 Prozent über alle Endpunkte hinweg erfordert wahrscheinlich einen sofortigen Rollback. Ein Anstieg um 0,1 Prozent bei einem selten genutzten Endpunkt könnte ein Bug sein, der im nächsten Release behoben wird.
Verschlechterung der Antwortzeiten. Langsamere Antworten deuten oft auf Datenbank-Engpässe, ineffiziente Abfragen oder Ressourcenkonflikte hin. Dieses Signal ist besonders wichtig, weil Benutzer sich vielleicht nicht sofort beschweren, aber anfangen werden, den Dienst zu verlassen.
Rückgang des Transaktionsvolumens. Ein plötzlicher Rückgang abgeschlossener Transaktionen kann bedeuten, dass Benutzer auf Fehler stoßen, in einem Ablauf stecken bleiben oder einfach aufgeben. Dieses Signal ist schwieriger zu erkennen, da es einen Vergleich des aktuellen Traffics mit historischen Basiswerten erfordert.

Jedes Signal bedeutet etwas anderes. Entscheidend ist zu wissen, welche Signale sofortiges Handeln erfordern und welche warten können.

Hier ist ein praktisches Beispiel, wie ein Team die Entscheidung für einen Rollback basierend auf der Fehlerrate automatisieren könnte:

#!/bin/bash
# Post-Deployment-Health-Check: Fehlerrate abfragen und bei > 5% zurücksetzen
THRESHOLD=5.0
DEPLOY_ID=$(curl -s "https://monitoring.example.com/api/v1/deploy/latest" | jq -r '.id')
ERROR_RATE=$(curl -s "https://monitoring.example.com/api/v1/query?query=error_rate{deploy_id=$DEPLOY_ID}" | jq -r '.data.result[0].value[1]')

if (( $(echo "$ERROR_RATE > $THRESHOLD" | bc -l) )); then
  echo "Fehlerrate $ERROR_RATE% überschreitet Grenzwert $THRESHOLD%. Rollback wird durchgeführt..."
  kubectl rollout undo deployment/my-app
  exit 1
else
  echo "Fehlerrate $ERROR_RATE% liegt im Rahmen. Deployment bestätigt."
fi

Vom Signal zur Ursache

Sobald ein Signal erkannt wurde, besteht der nächste Schritt darin, die Ursache zu finden. Handelt es sich um einen Code-Bug? Eine Konfigurationsabweichung? Ein Datenproblem? Ein Infrastrukturproblem? Die Antwort bestimmt, wer es behebt und wie.

Das folgende Flussdiagramm zeigt, wie ein Team vom Deployment zur Signalerfassung, Ursachenanalyse und Aktion gelangen kann.

flowchart TD A[Neue Version deployen] --> B[Signale überwachen] B --> C{Signal normal?} C -->|Ja| D[Deployment bestätigt] C -->|Nein| E[Ursache untersuchen] E --> F{Code-Bug?} F -->|Ja| G[Code fixen] F -->|Nein| H{Config-Problem?} H -->|Ja| I[Config fixen] H -->|Nein| J{Daten oder Infra?} J -->|Ja| K[Daten/Infra fixen] J -->|Nein| L[Eskalieren] G --> M[Rollback oder Hotfix] I --> M K --> M L --> M M --> B

Hier bleiben viele Teams stecken. Sie sehen einen Fehleranstieg und gehen sofort davon aus, dass der Code falsch ist. Aber manchmal ist der Code in Ordnung und das Problem ist ein Konfigurationswert, der zwischen Staging und Produktion abweicht. Manchmal lief die Datenbank-Schema-Migration korrekt, aber der Anwendungscode wurde bereitgestellt, bevor die Migration abgeschlossen war.

Ein reifes Team behebt nicht nur das unmittelbare Problem. Es behebt auch den Prozess, der das Problem durchgelassen hat. Wenn eine Datenbank-Migration Probleme verursacht hat, füge Migrationsprüfungen zur Pipeline hinzu. Wenn Staging- und Produktionskonfigurationen voneinander abgewichen sind, mache sie identisch. Wenn eine bestimmte Art von Änderung immer wieder Probleme verursacht, aktualisiere die Deployment-Checkliste, um sie früher zu erkennen.

Feedback verbessert die Entscheidungsfindung

Feedback aus der Produktion dient nicht nur der Fehlerbehebung. Es hilft Teams auch, ihre eigenen Entscheidungen zu bewerten. Erinnerst du dich an die Bereitschaftskriterien, die du vor dem Deployment festgelegt hast? Haben sie tatsächlich Probleme verhindert? Oder ist ein schwerwiegendes Problem durchgerutscht, weil deine Kriterien dieses Szenario nicht abgedeckt haben?

Mit echten Daten aus der Produktion können Teams ihre Deployment-Kriterien anpassen. Sie können sehen, welche Prüfungen effektiv sind und welche ein falsches Sicherheitsgefühl erzeugen. Sie können Muster erkennen: Vielleicht passieren alle Datenbankvorfälle bei Deployments am Freitag, also stellen sie Datenbankänderungen freitags ein. Vielleicht treten alle konfigurationsbezogenen Vorfälle auf, wenn ein bestimmtes Teammitglied im Urlaub ist, also fügen sie einen zweiten Prüfer hinzu.

So verbessern sich Deployment-Prozesse im Laufe der Zeit. Nicht durch Befolgen von Best Practices aus einem Buch, sondern durch Lernen aus den eigenen Produktionsdaten.

Geschwindigkeit des Feedbacks ist entscheidend

Je schneller das Feedback das Team erreicht, desto schneller kann es reagieren. Deshalb ist die Post-Deployment-Validierung eine kritische Praxis. Anstatt darauf zu warten, dass sich Fehler anhäufen, überprüfen Teams aktiv, ob die neue Version nach den ersten Minuten oder Stunden normal läuft.

Die Post-Deployment-Validierung kann verschiedene Formen annehmen:

Automatisierte Smoke-Tests, die direkt nach dem Deployment gegen Produktionsendpunkte laufen.
Metrikvergleiche, die Vorher-Nachher-Momentaufnahmen von Fehlerraten, Antwortzeiten und Durchsatz zeigen.
Log-Analysen, die in den ersten Minuten des Traffics nach ungewöhnlichen Mustern suchen.

Einige Teams gehen noch weiter und führen Canary-Deployments durch, bei denen die neue Version nur einen kleinen Prozentsatz des Traffics bedient. Wenn die Signale gut aussehen, wird der Traffic schrittweise erhöht. Wenn die Signale schlecht werden, wird der Canary automatisch zurückgesetzt. Dieser Ansatz begrenzt den Schadensradius und liefert dennoch echtes Produktionsfeedback.

Feedback braucht ein System

Feedback zu sammeln ist nutzlos, wenn es kein System gibt, um es zu verwalten. Teams brauchen eine Möglichkeit, Signale zu sammeln, Rauschen zu filtern und Maßnahmen zu priorisieren. Ein Dashboard voller Grafiken reicht nicht aus. Das System muss dem Team helfen, bessere Entscheidungen zu treffen.

Das bedeutet, klare Schwellenwerte für jedes Signal zu definieren. „Wenn die Fehlerrate 2 Prozent für mehr als fünf Minuten überschreitet, alarmiere den Bereitschaftsingenieur.“ „Wenn sich die Antwortzeit für einen kritischen Endpunkt verdoppelt, erstelle ein Ticket für den nächsten Sprint.“ Ohne Schwellenwerte sieht jedes Signal dringend aus, und das Team verbrennt sich bei der Jagd nach Fehlalarmen.

Es bedeutet auch, einen klaren Eskalationspfad zu haben. Nicht jedes Signal erfordert die gleiche Reaktion. Manche Signale lösen einen automatischen Rollback aus. Manche lösen ein Ticket aus. Manche lösen ein Meeting aus, um zu besprechen, ob der Deployment-Prozess geändert werden muss. Das System sollte diese Unterscheidungen klar machen.

Eine praktische Checkliste für Produktionsfeedback

Hier ist eine kurze Checkliste, um zu bewerten, ob dein Team nützliches Feedback aus der Produktion erhält:

Hast du automatisierte Alarme für Fehlerrate, Antwortzeit und Änderungen des Transaktionsvolumens nach jedem Deployment?
Kennst du die Basiswerte für diese Metriken, bevor du deployst?
Hast du klare Schwellenwerte, die zwischen „später untersuchen“ und „sofort zurücksetzen“ unterscheiden?
Führst du nach dem Deployment Smoke-Tests gegen die Produktion durch?
Überprüfst du Deployment-Vorfälle, um deine Pipeline und Kriterien zu verbessern?
Hat Feedback aus der Produktion jemals verändert, wie du deine Pipeline baust?

Wenn du mehr als zwei dieser Fragen mit Nein beantwortet hast, fliegt dein Team nach dem Deployment blind.

Das wahre Ende eines Deployments

Ein Deployment ist nicht abgeschlossen, wenn die neue Version läuft. Es ist abgeschlossen, wenn das Team weiß, dass die neue Version gut läuft. Dieses Wissen stammt aus Feedback-Systemen, die Signale erfassen, Rauschen filtern und Maßnahmen auslösen. Ohne diese Systeme ist jedes Deployment ein Glücksspiel. Mit ihnen wird jedes Deployment zu einer Lernchance, die das nächste sicherer macht.