46-3 · Глава 46 · 5 мин. чтения

Четыре метрики, которые покажут, действительно ли ваш процесс доставки становится лучше

Как отличить реальный прогресс от ложной активности в CI/CD. Четыре ключевых метрики DORA: частота деплоя, время выполнения изменений, процент неудачных деплоев и время восстановления. Практическое руководство для DevOps-инженеров.

Четыре метрики, которые покажут, действительно ли ваш процесс доставки становится лучше

Вы стали чаще выкатывать изменения в продакшн. Команда чувствует себя продуктивной. Паплайны зелёные. Но когда вы смотрите на инциденты в продакшне, что-то не сходится. Деплои происходят быстрее, но каждые несколько релизов что-то ломается, а восстановление занимает часы. Вы действительно становитесь лучше или просто быстрее движетесь в неверном направлении?

Это распространённое слепое пятно в инженерных командах. Без способа измерить зрелость доставки легко принять активность за прогресс. Вы можете гордиться ежедневными релизами, но если каждый деплой несёт высокий риск и медленное восстановление, вы ещё не зрелы. Вы просто заняты.

Хорошая новость в том, что измерение зрелости доставки не требует дорогих инструментов или сложных дашбордов. Есть четыре метрики, которые индустрия подтвердила годами исследований. Они взяты из отчётов State of DevOps от DORA (DevOps Research and Assessment) и используются тысячами команд, чтобы понять своё положение и определить, что улучшать дальше.

Частота деплоя: как часто вы выкатываете изменения?

Частота деплоя измеряет, как часто ваша команда отправляет изменения в продакшн. Это самый заметный признак способности к доставке. Команды, которые выпускают релизы раз в месяц, работают совершенно иначе, чем команды, деплоящие несколько раз в день.

Когда частота деплоя низкая, каждый релиз, как правило, большой. За раз выкатываются изменения за месяц. Это означает более высокий риск, более сложную отладку и более длинные циклы обратной связи. Когда частота высокая, каждое изменение невелико. Одна функция, исправление бага или настройка конфигурации выходят независимо. Если что-то ломается, вы точно знаете, что стало причиной.

Высокая частота деплоя — это не скорость ради скорости. Это уменьшение размера каждого изменения. Мелкие изменения проще ревьюить, проще тестировать и проще откатывать. Они также дают более быструю обратную связь от пользователей и систем мониторинга.

Если ваша команда деплоит реже раза в неделю, начните с вопроса: что мешает более частым релизам? Ручные процессы утверждения? Длинные циклы тестирования? Страх что-то сломать? Ответ укажет на следующее узкое место.

Время выполнения изменений: от коммита до продакшна

Время выполнения измеряет, сколько времени проходит от коммита кода до его работы в продакшне. Это отличается от частоты деплоя. Вы можете деплоить еженедельно, но каждое изменение может ждать ревью днями, прежде чем будет смержено.

Долгое время выполнения обычно означает, что в пайплайне есть точки ожидания. Ревью кода занимает слишком много времени. CI-пайплайн медленный. Есть ручные шлюзы, требующие чьего-то одобрения деплоя. Каждая точка ожидания добавляет часы или дни к циклу доставки.

В зрелых командах время выполнения измеряется часами или минутами. Разработчик пишет код, пушит его, автоматические проверки выполняются, и изменение оказывается в продакшне в тот же день. Это не означает пропуск качества. Это означает, что проверки качества автоматизированы и быстры.

Если ваше время выполнения измеряется неделями, посмотрите, где на самом деле тратится время. Ожидание ревью? Ожидание тестирования? Ожидание утверждения деплоя? Каждая точка ожидания — кандидат на автоматизацию или изменение процесса.

Процент неудачных деплоев: как часто деплои вызывают проблемы?

Эта метрика балансирует первые две. Высокая частота деплоя и быстрое время выполнения ничего не значат, если каждый третий деплой ломает продакшн. Процент неудачных деплоев измеряет долю деплоев, которые вызывают деградацию или отказ.

Низкий процент неудачных деплоев — признак того, что ваши стратегии тестирования, ревью и деплоя работают. Изменения проверяются до того, как попасть в продакшн. Стратегии деплоя, такие как canary-релизы или feature flags, уменьшают радиус взрыва при сбоях.

Высокий процент неудачных деплоев означает, что с вашим процессом качества что-то не так. Возможно, тесты не ловят реальные проблемы. Возможно, деплои слишком велики. Возможно, продакшн-среда сильно отличается от стейджинга.

Цель — не ноль сбоев. Это нереалистично для большинства команд. Но процент сбоев должен быть достаточно низким, чтобы вы доверяли своему процессу деплоя. Если вы нервничаете каждый раз, когда деплоите, ваш процент неудачных деплоев слишком высок.

Время восстановления: как быстро вы можете оправиться?

Когда что-то идёт не так, сколько времени требуется, чтобы вернуться к нормальной работе? Время восстановления измеряет продолжительность от момента обнаружения сбоя до полного восстановления системы.

Медленное восстановление часто является признаком неподготовленности. У команды нет чёткой процедуры отката. Сам откат занимает слишком много времени, потому что миграции базы данных трудно отменить. Или команде приходится вручную пересобирать и развёртывать предыдущую версию.

Быстрое восстановление приходит с подготовкой. Автоматизированные скрипты отката. Feature flags, позволяющие отключить проблемные функции без повторного деплоя. Стратегии деплоя, допускающие постепенный откат. Чёткие runbook'и, которые говорят дежурному инженеру, что именно делать.

Если ваше время восстановления измеряется часами или днями, начните с документирования наиболее частых сценариев сбоев и подготовки автоматизированных шагов восстановления для каждого из них.

Как эти метрики работают вместе

Четыре метрики не независимы. Команда, которая деплоит часто, но имеет высокий процент сбоев, не является зрелой. Команда с быстрым временем выполнения, но днями восстановления, не является зрелой. Истинная зрелость доставки означает хорошие показатели по всем четырём метрикам одновременно.

Вот как выглядит зрелая команда:

Диаграмма ниже визуализирует, как четыре метрики связаны и усиливают друг друга.

Деплои происходят несколько раз в день.
Время выполнения измеряется часами.
Процент неудачных деплоев низкий, значительно ниже 15 процентов.
Время восстановления измеряется минутами.

Вот как выглядит улучшающаяся команда:

Деплои происходят еженедельно вместо ежемесячно.
Время выполнения сократилось с недель до дней.
Процент сбоев стабилен или снижается.
Время восстановления сократилось с дней до часов.

Направление важнее абсолютных чисел. Каждая команда с чего-то начинает. Смысл в том, чтобы измерять, определять самую слабую метрику и улучшать её.

Простой способ начать измерять

Вам не нужна выделенная платформа для отслеживания этих метрик. Начните с простого лога. Для каждого деплоя записывайте:

Дату и время деплоя
Вызвал ли деплой какие-либо проблемы
Сколько времени заняло восстановление, если была проблема
Время между коммитом и деплоем

Через несколько недель посмотрите на паттерны. Какая метрика самая слабая? Это ваша отправная точка. Сосредоточьтесь на улучшении этой одной метрики, прежде чем переходить к следующей.

Настоящая цель — не цифры

Измерение этих метрик — не про достижение произвольных целей. Это про понимание способности вашей команды к доставке и принятие обоснованных решений о том, что улучшать дальше. Цифры дают вам сигнал. Улучшение даёт вам уверенность.

Команда, которая деплоит часто, быстро восстанавливается и редко что-то ломает, — это команда, которая может реагировать на потребности пользователей, быстро исправлять баги и экспериментировать без страха. Это реальный результат зрелости доставки. Метрики — просто табло.