17-8 · Chapitre 17 · 7 min de lecture

Quand la Production Casse : Pourquoi la Traçabilité et le Rollback des Images sont Indispensables

Découvrez comment la traçabilité des images conteneurisées et une stratégie de rollback efficace permettent de restaurer rapidement un service en production après un incident.

Quand la Production Casse : Pourquoi la Traçabilité et le Rollback des Images sont Indispensables

Une nouvelle version de votre application vient d'être mise en production. Cinq minutes plus tard, les utilisateurs commencent à signaler des erreurs. La première question qui surgit dans le chat de l'équipe : "Quelle version est actuellement en cours d'exécution ?"

Si personne ne peut répondre rapidement à cette question, vous perdez un temps précieux. Les minutes se transforment en heures pendant que les gens fouillent les logs de déploiement, vérifient les tags du registre et demandent autour d'eux pour comprendre ce qui a réellement été déployé. Au moment où vous savez quelle image est en production, les dégâts se sont déjà aggravés.

Cette situation est plus courante que la plupart des équipes ne l'admettent. Et elle se produit parce que deux choses ont été traitées comme optionnelles : savoir exactement ce qui est en cours d'exécution et disposer d'un moyen fiable de revenir à quelque chose qui fonctionnait.

La Traçabilité Commence au Moment du Build

La capacité à tracer ce qui est en cours d'exécution en production commence au moment où vous construisez votre image conteneurisée. La façon dont vous taguez cette image détermine si vous pouvez l'identifier avec certitude par la suite.

Les tags comme v1.2.3 ou production sont utiles pour les humains. Ils vous aident à reconnaître les versions en un coup d'œil. Mais les tags ne sont pas fiables pour la traçabilité. Un tag n'est qu'une étiquette qui pointe vers une image, et cette étiquette peut changer. L'image myapp:production peut pointer vers la version 1.2.3 aujourd'hui et vers la version 1.3.0 demain. Si vous ne suivez que les tags, vous n'êtes jamais sûr de la version réellement en cours d'exécution.

La source de vérité fiable est le digest de l'image. Un digest est un hachage unique généré à partir du contenu de l'image. Si deux images ont le même digest, elles sont identiques. Pas d'ambiguïté, pas de risque de mauvais tag, pas d'étiquettes écrasées. Lorsque vous avez besoin de savoir exactement ce qui est en cours d'exécution, le digest est ce qu'il vous faut.

Enregistrez le Digest, Pas Seulement le Tag

Dans votre pipeline, vous devez capturer le digest de chaque image qui passe par chaque étape. Lorsqu'une image est construite, enregistrez son digest. Lorsqu'elle passe le scan de sécurité, enregistrez-le à nouveau. Lorsqu'elle est promue en staging puis en production, conservez ce digest dans vos enregistrements de déploiement.

Où stockez-vous ces informations ? L'endroit le plus pratique est votre manifeste de déploiement. Un manifeste de déploiement est le fichier qui indique à votre système comment exécuter le conteneur. Dans Kubernetes, c'est un fichier YAML. Dans Docker Compose, c'est un fichier compose. Chaque fois que vous déployez, le manifeste doit référencer le digest exact, pas seulement le tag.

Voici à quoi cela ressemble dans un déploiement Kubernetes :

Pour capturer le digest dans votre pipeline, utilisez une séquence comme celle-ci :

# Build et push de l'image
docker build -t myregistry.com/myapp:latest .
docker push myregistry.com/myapp:latest

# Capture du digest depuis le registre
export DIGEST=$(docker inspect --format='{{index .RepoDigests 0}}' myregistry.com/myapp:latest)
echo "Déploiement de l'image : $DIGEST"

# Utilisation du digest dans le manifeste de déploiement
sed "s|image: myregistry.com/myapp:latest|image: $DIGEST|" deployment.yaml > deployment-digest.yaml
kubectl apply -f deployment-digest.yaml

Cela garantit que votre déploiement référence toujours le contenu exact de l'image, et non un tag mutable.

Le diagramme de séquence suivant illustre où l'enregistrement du digest et le rollback s'intègrent dans le cycle de vie du déploiement :

sequenceDiagram participant Dev as Développeur participant CI as Pipeline CI participant Reg as Registre participant K8s as Kubernetes participant User as Utilisateurs Dev->>CI: Push du code CI->>Reg: Build & push de l'image<br/>(enregistrement du digest) CI->>K8s: Déploiement avec digest<br/>@sha256:... K8s->>User: Service nouvelle version User->>K8s: Signalement d'erreurs K8s->>CI: Alerte : production cassée CI->>K8s: Rollback : kubectl rollout undo<br/>(utilise le digest précédent) K8s->>User: Service version précédente

spec:
  template:
    spec:
      containers:
      - name: myapp
        image: myregistry.com/myapp@sha256:a1b2c3d4e5f6...

Remarquez la partie @sha256:.... C'est le digest. Lorsque vous utilisez ce format, vous dites à Kubernetes d'exécuter cette image exacte, et non ce que latest pointe éventuellement.

En enregistrant le digest dans votre manifeste, vous créez un enregistrement permanent. Vous pouvez regarder en arrière à tout moment et savoir exactement quelle image était en cours d'exécution. Vous pouvez voir quand elle a été déployée, qui a déclenché le déploiement et quels changements l'accompagnaient.

Sans cet enregistrement, vous devinez. Et deviner pendant un incident coûte cher.

Rollback : Le Filet de Sécurité Que Vous Construisez Avant d'en Avoir Besoin

La traçabilité vous donne la réponse à "qu'est-ce qui est en cours d'exécution ?". Le rollback vous donne la réponse à "comment revenir à quelque chose qui fonctionnait ?".

Le rollback est le processus qui consiste à ramener votre application à une version précédente de l'image qui était connue pour être stable. Mais vous ne pouvez pas le faire efficacement au milieu d'un incident. Vous devez vous y préparer avant le déploiement.

Une bonne stratégie de rollback commence par trois questions :

L'image précédente est-elle toujours disponible dans le registre ?
Le manifeste de déploiement précédent est-il toujours utilisable ?
L'image précédente est-elle compatible avec la configuration actuelle ?

De nombreuses équipes stockent leurs manifestes de déploiement dans Git. Chaque fois qu'elles déploient, elles valident le manifeste avec le digest exact. Si quelque chose tourne mal, elles peuvent revenir à un commit précédent du manifeste et redéployer. C'est simple, auditable et fonctionne dans différents environnements.

Dans Kubernetes, vous pouvez utiliser kubectl rollout undo pour revenir à une révision précédente. Cette commande fonctionne car Kubernetes conserve un historique des révisions de déploiement. Mais vous devez configurer le nombre de révisions à conserver. Trop peu, et vous perdez la capacité de revenir assez loin en arrière. Trop, et vous consommez de la mémoire du cluster pour un historique que vous n'utiliserez peut-être jamais.

Quand le Rollback Fonctionne et Quand Il Ne Fonctionne Pas

Le rollback est rapide et efficace pour les problèmes au niveau de l'application. Si une nouvelle version a introduit un bug dans la logique métier, ou si une mise à jour de bibliothèque a cassé quelque chose, le retour à l'image précédente restaure rapidement le service.

Mais le rollback n'est pas une solution universelle. Si le problème se trouve dans le schéma de base de données, le retour en arrière de l'image de l'application peut ne pas aider. La base de données peut déjà être dans un état que l'ancien code de l'application ne peut pas gérer. Si le problème se trouve dans la configuration qui a été modifiée séparément de l'image, le rollback de l'image seule laisse la mauvaise configuration en place.

Connaissez les limites de votre mécanisme de rollback. Testez-le régulièrement. Assurez-vous que votre équipe sait quand l'utiliser et quand chercher une autre solution.

Après le Rollback, Corrigez la Cause Racine

Le rollback restaure le service. Il ne résout pas le problème. Une fois que vous êtes revenu en arrière et que les utilisateurs ne sont plus affectés, le vrai travail commence.

L'image qui a causé le problème doit être corrigée. Le pipeline doit continuer à fonctionner avec la version corrigée. Cette nouvelle image passe par le même processus : build, scan, promotion, déploiement. Le rollback était un filet de sécurité, pas la fin du voyage.

Certaines équipes commettent l'erreur de traiter le rollback comme l'étape finale. Elles reviennent en arrière, déclarent l'incident résolu et passent à autre chose. Le même bug refait surface lors de la prochaine version parce que personne n'a enquêté sur la cause racine. Ne laissez pas cela se produire.

Checklist Pratique

Avant votre prochain déploiement en production, parcourez cette checklist :

Chaque image dans le pipeline est référencée par son digest, pas seulement par son tag
Les manifestes de déploiement sont stockés dans le contrôle de version avec le digest exact
Les images précédentes sont conservées dans le registre pour au moins les N dernières versions
La procédure de rollback est documentée et testée dans un environnement non-production
L'équipe connaît la différence entre les problèmes que le rollback peut résoudre et ceux qui nécessitent une approche différente

Ce Que Cela Signifie Pour Votre Équipe

La traçabilité et le rollback ne sont pas des sujets avancés. Ce sont des pratiques d'hygiène opérationnelle de base. Vous n'avez pas besoin d'une plateforme complexe ou d'outils coûteux pour les mettre en œuvre. Vous avez besoin de discipline dans la façon dont vous taguez les images, dont vous enregistrez les déploiements et dont vous vous préparez au moment où quelque chose tourne mal.

La prochaine fois que la production cassera, la première question sera toujours : "Quelle version est en cours d'exécution ?" Avec la traçabilité des images en place, vous aurez la réponse en quelques secondes. Et avec un mécanisme de rollback testé, vous pourrez restaurer le service en quelques minutes au lieu de quelques heures.

Construisez le filet de sécurité avant d'en avoir besoin. Votre futur vous-même, en train de déboguer à 2 heures du matin, vous remerciera.