5-3 · Chapitre 5 · 6 min de lecture

Quand votre équipe a besoin d’un SRE et d’un Platform Engineer

Votre équipe livre bien, mais les incidents se répètent et l'infrastructure devient fragile. Découvrez quand et pourquoi recruter un SRE ou un Platform Engineer.

Quand votre équipe a besoin d’un SRE et d’un Platform Engineer

Votre équipe se porte bien. Les déploiements ont lieu plusieurs fois par jour. Le pipeline est au vert. Le code part en production sans accroc. Tout le monde se sent productif.

Puis les fissures apparaissent.

Une nouvelle fonctionnalité est mise en ligne, et en quelques heures un serveur manque de mémoire. Une requête en base de données issue de la dernière release ralentit tout. Le déploiement a réussi, mais l’application est lente, et personne ne sait pourquoi.

Les développeurs sont occupés à écrire des fonctionnalités, mais ils sont constamment sollicités pour des incidents de production. La personne en charge du DevOps est submergée par la maintenance des pipelines et des environnements, tout en gérant les demandes de multiples équipes. Le travail de tout le monde est interrompu, mais personne n’a le temps de creuser les causes racines.

C’est le moment où deux rôles commencent à prendre tout leur sens : le Site Reliability Engineering (SRE) et le Platform Engineering.

Ce que fait réellement un SRE

Le SRE n’est pas juste un nouveau nom pour l’exploitation. C’est un rôle centré sur la fiabilité des systèmes en production, mesurée objectivement.

Au lieu d’attendre qu’un incident se produise pour le réparer, le SRE définit des objectifs clairs. Il fixe des Service Level Objectives (SLOs), comme « l’application doit être accessible 99,9 % du temps ce mois-ci » ou « le temps de réponse reste sous les 200 millisecondes ». Quand ces objectifs commencent à dériver, le SRE investigate la cause racine et s’assure que le correctif est durable, pas un simple pansement.

Le SRE met aussi en place les pratiques qui évitent l’épuisement de l’équipe : procédures de réponse aux incidents, post-mortems orientés apprentissage plutôt que blame, et planification de capacité qui évite les mauvaises surprises. Sans SRE, les équipes tombent dans un cycle réactif : quelque chose casse, on répare, autre chose casse, on répare encore, sans jamais comprendre pourquoi les mêmes schémas se répètent.

La différence clé entre un SRE et un rôle d’exploitation traditionnel, c’est l’accent mis sur la mesure et la prévention. Le SRE ne se contente pas de maintenir la lumière allumée. Il fait en sorte qu’elle reste allumée même quand l’équipe déploie plus vite et plus fréquemment.

Ce que résout le Platform Engineering

Le Platform Engineering répond à une autre forme de douleur.

Quand votre organisation grandit, chaque équipe produit commence à construire ses propres pipelines, environnements et outils. Une équipe utilise une approche pour déployer. Une autre utilise un truc complètement différent. La documentation prend du retard. Chaque nouveau membre met des semaines avant de pouvoir déployer en autonomie.

Les Platform Engineers construisent ce qu’on appelle une plateforme interne pour développeurs. Considérez-la comme une couche de services partagés que chaque équipe peut utiliser : provisionner des environnements, exécuter des pipelines, gérer l’accès aux bases de données, déployer de nouvelles versions. Les équipes produit n’ont plus besoin de construire ces capacités de zéro. Elles utilisent simplement la plateforme.

Cela ne remplace pas le DevOps. Chaque équipe a toujours quelqu’un qui gère ses besoins spécifiques de pipeline et de déploiement. Mais la plateforme fournit une base cohérente qui allège le travail de tout le monde. Au lieu de réinventer la roue à chaque fois, les équipes construisent sur quelque chose de solide et de standardisé.

Les signes que vous avez besoin de ces rôles

Il n’y a pas de nombre magique d’ingénieurs ou de déploiements qui déclenche le besoin d’un SRE ou d’un Platform Engineer. Mais les signes sont généralement visibles :

Les incidents de production se répètent. Les mêmes types de pannes surviennent toutes les quelques semaines, et personne n’a le temps de les corriger définitivement.
Les développeurs se plaignent que les déploiements sont lents ou compliqués. Ce qui prenait quelques minutes prend désormais des heures de coordination.
L’infrastructure semble fragile. Les équipes hésitent à faire des changements de peur de casser quelque chose.
L’intégration d’un nouveau développeur prend des semaines avant qu’il puisse déployer sa première modification.
Différentes équipes utilisent des outils et des processus complètement différents pour les mêmes tâches.

Si vous reconnaissez ces schémas, il est temps d’envisager d’intégrer un SRE et un Platform Engineer. Ces rôles ne sont pas nécessaires dès le premier jour. Mais quand la vitesse de livraison augmente et que la complexité de l’infrastructure croît, ils deviennent la différence entre une équipe qui avance et une autre qui s’enlise dans les sables mouvants opérationnels.

Comment ces rôles fonctionnent ensemble

Le SRE et le Platform Engineering sont complémentaires. Le SRE se concentre sur la fiabilité de ce qui tourne en production. Le Platform Engineering se concentre sur la facilité pour les équipes de construire et déployer de manière fiable.

Le diagramme ci-dessous montre comment le SRE et le Platform Engineering interagissent sans se chevaucher.

flowchart TD subgraph SRE[Site Reliability Engineering] S1[Définir les SLOs et SLIs] S2[Réponse aux incidents et post-mortems] S3[Planification de capacité] S4[Supervision de la production] end subgraph Platform[Platform Engineering] P1[Plateforme interne développeur] P2[Pipelines en libre-service] P3[Provisionnement d’environnements] P4[Outillage standardisé] end S1 -- exigences de fiabilité --> P1 P4 -- données d’observabilité --> S4 S2 -- enseignements des incidents --> P2 P3 -- environnements stables --> S3

Un exemple concret : l’équipe plateforme construit un pipeline de déploiement standard que chaque équipe produit utilise. L’équipe SRE surveille l’impact de ces déploiements sur la fiabilité de la production. Quand un déploiement provoque une dégradation des performances, le SRE le signale, et l’équipe plateforme ajuste le pipeline pour détecter des problèmes similaires plus tôt.

Ces deux rôles réduisent la charge cognitive des développeurs. Les développeurs n’ont pas à penser aux détails d’infrastructure ni aux métriques de fiabilité. Ils écrivent du code, le commitent, et la plateforme gère le reste. Le SRE garantit que la plateforme elle-même reste fiable.

Une checklist pratique rapide

Si vous évaluez si votre équipe a besoin de ces rôles, parcourez cette checklist :

Avez-vous des incidents de production récurrents que personne n’a le temps d’investiguer correctement ?
Les développeurs interrompent-ils régulièrement leur travail sur les fonctionnalités pour gérer des problèmes opérationnels ?
Différentes équipes utilisent-elles des méthodes de déploiement différentes pour le même type d’application ?
L’intégration d’un nouveau développeur prend-elle plus d’une semaine avant qu’il puisse déployer ?
Évitez-vous les changements d’infrastructure par peur de casser des choses ?
Manquez-vous d’objectifs de fiabilité clairs pour vos systèmes de production ?

Si vous avez répondu oui à trois questions ou plus, commencez à planifier l’arrivée d’un SRE ou d’un Platform Engineer. Commencez petit. Une personne focalisée sur la fiabilité ou une personne qui construit des outils partagés peut faire une différence significative.

L’essentiel à retenir

Le SRE et le Platform Engineering ne sont pas des rôles de luxe réservés aux grandes entreprises. Ce sont des réponses pratiques à des problèmes spécifiques qui émergent quand les équipes passent à l’échelle dans leur livraison. Quand les incidents de production deviennent récurrents, quand l’infrastructure devient incohérente, quand les développeurs passent plus de temps sur les opérations que sur les fonctionnalités, ces rôles se rentabilisent rapidement. Ils n’ajoutent pas de bureaucratie. Ils suppriment les frictions. Et ils permettent au reste de l’équipe de se concentrer sur ce qu’elle fait de mieux : construire et livrer du logiciel.