5-3 · Kapitel 5 · 5 Min. Lesezeit

Wann Ihr Team SRE und Plattformingenieure braucht

Erfahren Sie, wann Site Reliability Engineering und Platform Engineering notwendig werden, um wiederkehrende Produktionsausfälle, inkonsistente Infrastruktur und hohe kognitive Last für Entwickler zu vermeiden.

Wann Ihr Team SRE und Plattformingenieure braucht

Ihr Team läuft gut. Deployments erfolgen mehrmals täglich. Die Pipeline ist grün. Code geht reibungslos in Produktion. Alle fühlen sich produktiv.

Dann zeigen sich die ersten Risse.

Eine neue Funktion geht live, und innerhalb weniger Stunden geht einem Server der Arbeitsspeicher aus. Eine Datenbankabfrage aus dem letzten Release bremst alles aus. Das Deployment war erfolgreich, aber die Anwendung fühlt sich träge an, und niemand weiß warum.

Entwickler sind mit dem Schreiben von Features beschäftigt, werden aber ständig in Produktionsprobleme hineingezogen. Die DevOps-Person ist überfordert damit, Pipelines und Umgebungen zu reparieren und gleichzeitig Anfragen mehrerer Teams zu bearbeiten. Die Arbeit aller wird unterbrochen, aber niemand hat Zeit, sich eingehend mit den Ursachen zu befassen.

Dies ist der Moment, in dem zwei Rollen sinnvoll werden: Site Reliability Engineering (SRE) und Platform Engineering.

Was SRE tatsächlich tut

SRE ist nicht nur ein anderer Name für Betrieb. Es ist eine Rolle, die sich auf die Zuverlässigkeit von Systemen in Produktion konzentriert, objektiv gemessen.

Anstatt zu warten, bis etwas kaputt geht, und es dann zu reparieren, definiert SRE klare Ziele. Sie legen Service Level Objectives (SLOs) fest, wie „Die Anwendung muss diesen Monat zu 99,9 % erreichbar sein“ oder „Die Antwortzeit bleibt unter 200 Millisekunden“. Wenn diese Ziele zu rutschen beginnen, untersucht SRE die Ursache und stellt sicher, dass die Lösung dauerhaft ist – kein Pflaster.

SRE etabliert auch die Praktiken, die ein Team vor dem Ausbrennen bewahren: Verfahren zur Incident Response, Postmortems, die sich auf Lernen statt Schuldzuweisungen konzentrieren, und Kapazitätsplanung, die Überraschungen verhindert. Ohne SRE verfallen Teams in einen reaktiven Kreislauf: etwas geht kaputt, reparieren, etwas anderes geht kaputt, wieder reparieren, ohne jemals zu verstehen, warum sich dieselben Muster wiederholen.

Der entscheidende Unterschied zwischen SRE und einer traditionellen Betriebsrolle ist der Fokus auf Messung und Prävention. SRE sorgt nicht nur dafür, dass das Licht an bleibt. Sie stellen sicher, dass das Licht auch dann an bleibt, wenn das Team schneller und häufiger deployed.

Was Platform Engineering löst

Platform Engineering adressiert eine andere Art von Schmerz.

Wenn Ihre Organisation wächst, beginnt jedes Produktteam, seine eigenen Pipelines, Umgebungen und Tools zu bauen. Ein Team verwendet einen Ansatz zum Deployen. Ein anderes Team verwendet etwas völlig anderes. Die Dokumentation hinkt hinterher. Jedes neue Teammitglied braucht Wochen, bevor es selbstständig deployen kann.

Plattformingenieure bauen das, was man eine interne Entwicklerplattform nennt. Stellen Sie es sich als eine Schicht gemeinsamer Dienste vor, die jedes Team nutzen kann: Bereitstellung von Umgebungen, Ausführen von Pipelines, Verwalten von Datenbankzugriffen, Ausrollen neuer Versionen. Produktteams müssen diese Fähigkeiten nicht mehr von Grund auf neu aufbauen. Sie nutzen einfach die Plattform.

Dies ersetzt nicht DevOps. Jedes Team hat immer noch jemanden, der sich um seine spezifischen Pipeline- und Deployment-Anforderungen kümmert. Aber die Plattform bietet eine konsistente Grundlage, die die Arbeit aller erleichtert. Anstatt jedes Mal das Rad neu zu erfinden, bauen Teams auf etwas Solides und Standardisiertes auf.

Anzeichen, dass Sie diese Rollen brauchen

Es gibt keine magische Anzahl von Ingenieuren oder Deployments, die den Bedarf an SRE oder Plattformingenieuren auslöst. Aber die Anzeichen sind meist sichtbar:

Produktionsvorfälle wiederholen sich. Die gleichen Arten von Ausfällen treten alle paar Wochen auf, und niemand hat Zeit, sie dauerhaft zu beheben.
Entwickler beschweren sich, dass Deployments langsam oder kompliziert sind. Was früher Minuten dauerte, erfordert jetzt Stunden der Koordination.
Die Infrastruktur fühlt sich fragil an. Teams zögern, Änderungen vorzunehmen, weil sie befürchten, etwas könnte kaputt gehen.
Das Onboarding eines neuen Entwicklers dauert Wochen, bevor er seine erste Änderung deployen kann.
Verschiedene Teams verwenden völlig unterschiedliche Tools und Prozesse für dieselben Aufgaben.

Wenn Sie diese Muster erkennen, ist es Zeit, über die Einführung von SRE und Platform Engineering nachzudenken. Diese Rollen sind nicht von Tag eins an notwendig. Aber wenn die Liefergeschwindigkeit steigt und die Infrastrukturkomplexität wächst, werden sie zum Unterschied zwischen einem Team, das sich weiterentwickelt, und einem, das im operativen Treibsand stecken bleibt.

Wie diese Rollen zusammenarbeiten

SRE und Platform Engineering ergänzen sich. SRE konzentriert sich auf die Zuverlässigkeit dessen, was in Produktion läuft. Platform Engineering konzentriert sich darauf, es Teams zu erleichtern, zuverlässig zu bauen und zu deployen.

Das folgende Diagramm zeigt, wie SRE und Platform Engineering interagieren, ohne sich zu überschneiden.

flowchart TD subgraph SRE[Site Reliability Engineering] S1[SLOs und SLIs definieren] S2[Incident Response und Postmortems] S3[Kapazitätsplanung] S4[Produktionsüberwachung] end subgraph Platform[Platform Engineering] P1[Interne Entwicklerplattform] P2[Self-Service Pipelines] P3[Umgebungsbereitstellung] P4[Standardisierte Tools] end S1 -- Zuverlässigkeitsanforderungen --> P1 P4 -- Beobachtbarkeitsdaten --> S4 S2 -- Erkenntnisse aus Vorfällen --> P2 P3 -- Stabile Umgebungen --> S3

Ein praktisches Beispiel: Das Plattformteam baut eine standardisierte Deployment-Pipeline, die jedes Produktteam nutzt. Das SRE-Team überwacht, wie sich diese Deployments auf die Produktionszuverlässigkeit auswirken. Wenn ein Deployment zu einer Leistungsverschlechterung führt, meldet SRE dies, und das Plattformteam passt die Pipeline an, um ähnliche Probleme früher zu erkennen.

Beide Rollen reduzieren die kognitive Last für Entwickler. Entwickler müssen sich nicht um Infrastrukturdetails oder Zuverlässigkeitsmetriken kümmern. Sie schreiben Code, committen ihn, und die Plattform erledigt den Rest. SRE stellt sicher, dass die Plattform selbst zuverlässig bleibt.

Eine kurze praktische Checkliste

Wenn Sie prüfen, ob Ihr Team diese Rollen braucht, gehen Sie diese Checkliste durch:

Haben Sie wiederkehrende Produktionsvorfälle, die niemand richtig untersuchen kann?
Pausieren Entwickler regelmäßig Feature-Arbeit, um operative Probleme zu lösen?
Verwenden verschiedene Teams unterschiedliche Deployment-Methoden für denselben Anwendungstyp?
Dauert das Onboarding eines neuen Entwicklers länger als eine Woche, bevor er deployen kann?
Vermeiden Sie Infrastrukturänderungen aus Angst, etwas könnte kaputt gehen?
Fehlen Ihnen klare Zuverlässigkeitsziele für Ihre Produktionssysteme?

Wenn Sie drei oder mehr Fragen mit Ja beantwortet haben, beginnen Sie mit der Planung für SRE oder Platform Engineering. Fangen Sie klein an. Eine Person, die sich auf Zuverlässigkeit konzentriert, oder eine Person, die gemeinsame Tools baut, kann einen signifikanten Unterschied machen.

Die konkrete Erkenntnis

SRE und Platform Engineering sind keine Luxusrollen nur für große Unternehmen. Sie sind praktische Antworten auf spezifische Probleme, die auftreten, wenn Teams ihre Lieferfähigkeit skalieren. Wenn Produktionsprobleme repetitiv werden, wenn die Infrastruktur inkonsistent wird, wenn Entwickler mehr Zeit mit Betrieb als mit Features verbringen, zahlen sich diese Rollen schnell aus. Sie fügen keine Bürokratie hinzu. Sie beseitigen Reibung. Und sie lassen den Rest des Teams sich auf das konzentrieren, was sie am besten können: Software bauen und ausliefern.