12-3 · Chapitre 12 · 7 min de lecture

Quand un rollback est trop risqué : comment le roll-forward maintient votre système en mouvement

Découvrez pourquoi le roll-forward est souvent plus sûr qu'un rollback lorsque des changements de base de données ou des données utilisateur sont en jeu. Guide pratique pour les équipes DevOps et SRE.

Quand un rollback est trop risqué : comment le roll-forward maintient votre système en mouvement

Vous déployez une nouvelle version de votre application un vendredi après-midi. Tout semble normal sur le tableau de bord de monitoring. Vous rentrez chez vous. Samedi matin, vous consultez votre téléphone et découvrez un rapport de bug : les utilisateurs inscrits après le déploiement ne peuvent pas terminer la configuration de leur profil. La base de données contient une nouvelle table qui stocke leurs données partielles. Vous devez maintenant prendre une décision.

Allez-vous faire un rollback vers la version précédente ? Si oui, que deviennent les données dans cette nouvelle table ? Les utilisateurs qui ont déjà rempli leur profil perdront leur progression. Le schéma de base de données a changé, et l'inverser signifie supprimer une table qui contient désormais de vraies informations utilisateur. Le rollback qui semblait simple vendredi ressemble maintenant à un incident de perte de données en puissance.

C'est à ce moment que de nombreuses équipes découvrent que le rollback n'est pas toujours l'option la plus sûre. Il existe une autre voie : le roll-forward.

Ce que signifie réellement le roll-forward

Le roll-forward est l'opposé du rollback. Au lieu de revenir à une version plus ancienne, vous créez une nouvelle version qui corrige le problème et la déployez en production. Vous continuez d'avancer en ajoutant un correctif, pas en annulant le changement.

La logique est simple : si la version actuelle a un bug, écrivez un patch qui le corrige et expédiez ce patch. La base de données reste telle quelle. La nouvelle table reste. Les données utilisateur restent. Vous corrigez simplement le code qui a cassé le flux de configuration du profil.

Cette approche semble contre-intuitive au premier abord. La plupart des ingénieurs apprennent tôt que quand quelque chose casse, on l'annule. Mais dans les systèmes modernes, surtout ceux avec des changements de base de données, annuler est souvent plus difficile que corriger en avançant.

Quand le roll-forward est plus pertinent que le rollback

Le roll-forward brille dans trois situations courantes.

Changements de base de données qui ont déjà touché la production

C'est la raison la plus fréquente pour laquelle les équipes choisissent le roll-forward. Quand un déploiement inclut une migration de base de données, annuler le code applicatif n'est que la moitié de l'histoire. Vous devez aussi inverser les changements de base de données. Si la migration a ajouté une colonne, vous devez la supprimer. Si elle a créé une nouvelle table, vous devez la dropper. Si cette table contient déjà des données d'utilisateurs réels, la supprimer signifie perdre ces données.

Certaines équipes écrivent des migrations réversibles spécifiquement pour gérer les rollbacks. Mais même avec des migrations réversibles, le problème des données persiste. Les utilisateurs ont saisi des informations. Des transactions ont été enregistrées. Des relations entre tables ont été établies. Inverser le schéma n'inverse pas les données qui ont été saisies sous le nouveau schéma.

Dans cette situation, roll-forward signifie que vous conservez la base de données telle quelle, corrigez le code applicatif, et redéployez. Les utilisateurs gardent leurs données. Le schéma reste cohérent. La seule chose qui change est le code défectueux.

Problèmes découverts des heures ou des jours plus tard

Tous les bugs ne sont pas détectés immédiatement. Certains apparaissent après que les utilisateurs ont interagi avec le système pendant un certain temps. Au moment où vous remarquez le problème, la nouvelle version a déjà traité des milliers de transactions, créé des centaines d'enregistrements, et modifié l'état du système d'une manière difficile à inverser.

Faire un rollback dans ce scénario signifie perdre toute cette activité. Les utilisateurs qui ont passé des commandes, mis à jour leurs profils ou soumis des formulaires verront leur travail disparaître. Les tickets de support vont affluer. La confiance s'érode.

Une approche roll-forward vous permet de corriger le bug sans perturber les données que les utilisateurs ont déjà créées. Le correctif s'ajoute par-dessus tout ce qui s'est passé depuis le déploiement.

Systèmes critiques où l'indisponibilité n'est pas une option

Certains systèmes ne peuvent pas se permettre le temps nécessaire à un rollback. Un rollback n'est pas instantané. Vous devez revertir le code, revertir la base de données, tout vérifier, et espérer que rien d'autre ne casse. Pour les systèmes qui servent des clients payants ou gèrent des opérations en temps réel, cette fenêtre d'incertitude est trop large.

Le roll-forward maintient le système en fonctionnement. Vous préparez un correctif, le testez aussi rapidement que possible, et le déployez. Le système reste opérationnel tout au long du processus. Les utilisateurs peuvent subir le bug un peu plus longtemps, mais ils ne subissent jamais d'indisponibilité.

Comment le roll-forward fonctionne en pratique

Le processus est presque identique à un déploiement normal. Vous créez une branche à partir du code de production actuel. Vous écrivez le correctif. Vous exécutez le pipeline. La différence réside dans l'urgence et les raccourcis que vous pourriez prendre.

De nombreuses équipes ont un chemin de pipeline séparé pour les hotfixes. Ce chemin ignore les étapes non critiques comme les tests de performance ou les scans de sécurité qui prennent beaucoup de temps. Le processus de revue est plus rapide. Les tests se concentrent sur le correctif spécifique et les zones qu'il pourrait affecter. L'objectif est d'envoyer le correctif en production aussi rapidement que possible tout en continuant à détecter les problèmes évidents.

La tension clé dans le roll-forward est la vitesse contre la rigueur. Si le bug est critique, vous pourriez sauter certaines vérifications. Si le bug est mineur, vous pouvez vous permettre d'être plus prudent. Il n'y a pas de règle universelle. Chaque équipe doit décider en fonction de la gravité du problème et du risque d'introduire de nouveaux problèmes.

Les risques du roll-forward

Le roll-forward n'est pas un laissez-passer gratuit. Il comporte son propre ensemble de risques.

Le plus grand risque est que votre correctif introduise un nouveau bug. Quand vous êtes pressé, vous pourriez ne pas comprendre pleinement la cause racine. Vous corrigez le symptôme mais manquez le problème sous-jacent. Le correctif est déployé, et vous avez maintenant deux problèmes au lieu d'un.

Un autre risque est que le correctif interagisse mal avec le code existant. La version buggée a peut-être modifié certains comportements dont dépend votre correctif. Vous pourriez accidentellement casser quelque chose qui fonctionnait bien avant.

Certaines équipes utilisent une approche hybride : d'abord faire un rollback pour stabiliser le système, puis prendre le temps de comprendre la cause racine et préparer un correctif approprié. Cela fonctionne bien quand le rollback est sûr et que le système peut tolérer un bref retour à l'état précédent. Mais quand le rollback est risqué, le roll-forward est le meilleur choix.

Choisir entre rollback et roll-forward

La décision se résume à une question simple : quelle option présente le risque total le plus faible ?

Le diagramme suivant résume la logique de décision décrite ci-dessus.

flowchart TD A[Problème de déploiement détecté] --> B{Le schéma DB a-t-il changé ?} B -- Oui --> C{L'indisponibilité est-elle acceptable ?} B -- Non --> D[Rollback : revertir le code, pas de perte de données] C -- Oui --> E[Rollback : revertir code + schéma, perte de données probable] C -- Non --> F[Roll-forward : patcher le code, conserver schéma et données] D --> G[Vérifier la stabilité du système] E --> G F --> H[Déployer le hotfix, surveiller attentivement] G --> I[Documenter l'incident et la décision] H --> I

Pour les applications sans changements significatifs de base de données, le rollback est généralement plus rapide et plus sûr. Vous revertissez le code, le système revient à son état précédent, et vous avez le temps de corriger le problème correctement.

Pour les déploiements qui ont modifié le schéma de base de données ou qui ont fonctionné assez longtemps pour accumuler de nouvelles données, le roll-forward est souvent le choix le plus judicieux. Le coût de l'inversion des changements de données est plus élevé que le coût d'écriture et de déploiement d'un correctif.

Après le déploiement du correctif

Le roll-forward ne s'arrête pas quand le correctif atteint la production. Vous devez vérifier que le correctif fonctionne réellement et que rien d'autre n'a cassé. Surveillez les taux d'erreur. Vérifiez la fonctionnalité affectée. Recherchez des schémas inhabituels dans les logs.

L'étape de vérification est facile à sauter quand vous êtes fatigué et que vous voulez juste que l'incident se termine. Mais la sauter est ainsi que les petits incidents se transforment en plus gros. Prenez les cinq minutes pour confirmer que le correctif a fait ce qu'il était censé faire.

Checklist pratique pour le roll-forward

Utilisez-la quand vous décidez de faire un roll-forward plutôt qu'un rollback :

Confirmez que le rollback entraînerait une perte de données ou une incohérence de schéma
Identifiez le bug exact et écrivez un correctif minimal
Exécutez des tests qui couvrent le scénario du bug et les fonctionnalités environnantes
Déployez via votre pipeline normal, en sautant uniquement les étapes non critiques si l'urgence l'exige
Surveillez les taux d'erreur, les temps de réponse et la fonctionnalité affectée pendant 30 minutes après le déploiement
Documentez ce qui s'est passé et pourquoi le roll-forward a été choisi plutôt que le rollback

L'essentiel à retenir

Le roll-forward n'est pas un signe d'échec. C'est une réponse pratique à la réalité que certains changements ne peuvent pas être proprement annulés. Quand votre base de données a changé, quand les utilisateurs ont saisi des données, quand le système a avancé, la façon la plus sûre de corriger un problème est souvent de continuer à avancer avec une meilleure version.

La question n'est pas de savoir si vous aurez un jour besoin du roll-forward. La question est de savoir si votre équipe est prête à reconnaître quand le rollback est le mauvais choix et à agir en conséquence.