35-4 · Глава 35 · 6 мин. чтения

Развертывание не завершено, пока вы не убедились, что оно работает

Узнайте, почему мониторинг после деплоя критически важен. Практические советы по сбору сигналов из продакшена, автоматическому откату и улучшению CI/CD.

Развертывание не завершено, пока вы не убедились, что оно работает

Команда выкатывает новую версию в продакшен. Пайплайн зеленый. Лог деплоя без ошибок. Все выдыхают и переходят к следующей задаче. Через два часа клиент пишет в поддержку, что страница оформления заказа сломана. Команда в спешке ищет причину, откатывает изменения и тратит следующий день на выяснение, что пошло не так.

Этот сценарий встречается повсеместно. Многие команды считают деплой завершенным в тот момент, когда новая версия запускается на продакшен-серверах. Но на практике развертывание завершено только тогда, когда вы знаете, что эта версия действительно хорошо работает для пользователей.

Продакшен — не чистая комната

Когда новая версия выходит в свет, она попадает в среду, которую стейджинг никогда не сможет полностью воспроизвести. Реальные пользователи приносят реальные данные, реальные паттерны трафика и реальные конфигурации устройств. Происходят вещи, которые не предсказала ни одна тестовая среда.

Запрос, который отлично работал с тысячей строк на стейджинге, может замедлиться до черепашьей скорости с миллионом строк в продакшене. Изменение API, казавшееся обратно совместимым, может сломать мобильный клиент, который не обновлялся полгода. Новая функция, отлично выглядевшая на ревью дизайна, может настолько запутать пользователей, что никто на нее не нажмет.

Это не сбои. Это сигналы. Вопрос в том, настроена ли ваша команда на их улавливание.

Сигналы, которые имеют значение

Хорошие команды не ждут, пока пользователи сообщат о проблемах. Они настраивают автоматизированные системы, которые собирают сигналы из продакшена. Наиболее полезные сигналы делятся на несколько категорий:

Изменение частоты ошибок. Если частота ошибок резко возрастает сразу после деплоя, скорее всего, что-то сломалось. Увеличение на 5% по всем эндпоинтам, вероятно, требует немедленного отката. Увеличение на 0,1% на редко используемом эндпоинте может быть багом, который нужно исправить в следующем релизе.
Ухудшение времени отклика. Медленные ответы часто указывают на узкие места в базе данных, неэффективные запросы или конкуренцию за ресурсы. Этот сигнал особенно важен, потому что пользователи могут не жаловаться сразу, но начнут уходить из сервиса.
Падение объема транзакций. Внезапное уменьшение количества завершенных транзакций может означать, что пользователи натыкаются на ошибки, застревают в каком-то сценарии или просто сдаются. Этот сигнал сложнее обнаружить, так как требует сравнения текущего трафика с историческими базовыми значениями.

Каждый сигнал означает что-то свое. Ключ в том, чтобы знать, какие сигналы требуют немедленных действий, а какие могут подождать.

Вот практический пример того, как команда может автоматизировать решение об откате на основе частоты ошибок:

#!/bin/bash
# Постдеплойная проверка здоровья: запрос частоты ошибок и откат, если > 5%
THRESHOLD=5.0
DEPLOY_ID=$(curl -s "https://monitoring.example.com/api/v1/deploy/latest" | jq -r '.id')
ERROR_RATE=$(curl -s "https://monitoring.example.com/api/v1/query?query=error_rate{deploy_id=$DEPLOY_ID}" | jq -r '.data.result[0].value[1]')

if (( $(echo "$ERROR_RATE > $THRESHOLD" | bc -l) )); then
  echo "Частота ошибок $ERROR_RATE% превышает порог $THRESHOLD%. Выполняется откат..."
  kubectl rollout undo deployment/my-app
  exit 1
else
  echo "Частота ошибок $ERROR_RATE% в пределах нормы. Деплой подтвержден."
fi

От сигнала к первопричине

Как только сигнал обнаружен, следующий шаг — найти первопричину. Это баг в коде? Несоответствие конфигурации? Проблема с данными? Проблема с инфраструктурой? Ответ определяет, кто и как будет это исправлять.

Следующая блок-схема иллюстрирует, как команда может перейти от деплоя к обнаружению сигнала, анализу первопричины и действию.

flowchart TD A[Развернуть новую версию] --> B[Мониторинг сигналов] B --> C{Сигнал в норме?} C -->|Да| D[Деплой подтвержден] C -->|Нет| E[Исследовать первопричину] E --> F{Баг в коде?} F -->|Да| G[Исправить код] F -->|Нет| H{Проблема с конфигом?} H -->|Да| I[Исправить конфиг] H -->|Нет| J{Данные или инфра?} J -->|Да| K[Исправить данные/инфру] J -->|Нет| L[Эскалировать] G --> M[Откат или хотфикс] I --> M K --> M L --> M M --> B

Именно здесь многие команды застревают. Они видят всплеск ошибок и сразу предполагают, что проблема в коде. Но иногда код в порядке, а проблема в значении конфигурации, которое отличается между стейджингом и продакшеном. Иногда миграция схемы базы данных выполнилась корректно, но код приложения был развернут до завершения миграции.

Зрелая команда не просто исправляет непосредственную проблему. Она также исправляет процесс, который пропустил эту проблему. Если миграция базы данных вызвала трудности, добавьте проверки миграции в пайплайн. Если конфигурации стейджинга и продакшена разошлись, сделайте их идентичными. Если определенный тип изменений постоянно вызывает проблемы, обновите чеклист деплоя, чтобы выявлять их раньше.

Обратная связь улучшает принятие решений

Обратная связь из продакшена нужна не только для исправления багов. Она также помогает командам оценивать собственные решения. Помните критерии готовности, которые вы установили перед деплоем? Они действительно предотвратили проблемы? Или серьезная проблема проскочила, потому что ваши критерии не охватывали этот сценарий?

Имея реальные данные из продакшена, команды могут корректировать свои критерии деплоя. Они видят, какие проверки эффективны, а какие создают ложное чувство уверенности. Они могут выявить закономерности: возможно, все инциденты, связанные с базой данных, происходят при деплоях в пятницу, поэтому они прекращают развертывать изменения БД по пятницам. Возможно, все инциденты с конфигурацией происходят, когда конкретный член команды в отпуске, поэтому они добавляют резервного ревьюера.

Так процессы деплоя улучшаются со временем. Не следуя лучшим практикам из книги, а учась на собственных данных из продакшена.

Скорость обратной связи имеет значение

Чем быстрее обратная связь доходит до команды, тем быстрее они могут отреагировать. Вот почему постдеплойная валидация является критически важной практикой. Вместо того чтобы ждать накопления ошибок, команды активно проверяют, работает ли новая версия нормально в первые минуты или часы.

Постдеплойная валидация может принимать различные формы:

Автоматизированные смоук-тесты, которые запускаются против продакшен-эндпоинтов сразу после деплоя.
Сравнение метрик, показывающее снимки "до и после" частоты ошибок, времени отклика и пропускной способности.
Анализ логов на предмет необычных паттернов в первые минуты трафика.

Некоторые команды идут дальше и используют канареечные развертывания, когда новая версия обслуживает лишь небольшой процент трафика. Если сигналы в порядке, трафик постепенно увеличивается. Если сигналы ухудшаются, канарейка откатывается автоматически. Этот подход ограничивает радиус поражения, одновременно предоставляя реальную обратную связь из продакшена.

Обратной связи нужна система

Сбор обратной связи бесполезен, если нет системы для управления ею. Командам нужен способ собирать сигналы, фильтровать шум и расставлять приоритеты. Дашборд, полный графиков, — это не решение. Система должна помогать команде принимать лучшие решения.

Это означает определение четких порогов для каждого сигнала. "Если частота ошибок превышает 2% в течение более пяти минут, вызывать дежурного инженера." "Если время отклика удваивается для любого критического эндпоинта, создавать задачу на следующий спринт." Без порогов каждый сигнал выглядит срочным, и команда выгорает, гоняясь за ложными тревогами.

Это также означает наличие четкого пути эскалации. Не каждый сигнал требует одинаковой реакции. Некоторые сигналы запускают автоматический откат. Некоторые создают задачу. Некоторые инициируют встречу для обсуждения, нужно ли изменить процесс деплоя. Система должна четко различать эти случаи.

Практический чеклист для обратной связи из продакшена

Вот краткий чеклист для оценки того, получает ли ваша команда полезную обратную связь из продакшена:

Есть ли у вас автоматические оповещения об изменении частоты ошибок, времени отклика и объема транзакций после каждого деплоя?
Знаете ли вы базовые значения этих метрик до начала деплоя?
Есть ли у вас четкие пороги, которые различают "расследовать позже" и "откатить сейчас"?
Запускаете ли вы постдеплойные смоук-тесты против продакшена?
Анализируете ли вы инциденты, связанные с деплоем, для улучшения пайплайна и критериев?
Влияет ли обратная связь из продакшена на то, как вы строите свой пайплайн?

Если вы ответили "нет" более чем на два пункта, ваша команда действует вслепую после деплоя.

Настоящий конец деплоя

Развертывание не заканчивается, когда новая версия запущена. Оно заканчивается, когда команда знает, что новая версия работает хорошо. Это знание приходит от систем обратной связи, которые собирают сигналы, фильтруют шум и побуждают к действиям. Без этих систем каждый деплой — это азартная игра. С ними каждый деплой становится возможностью для обучения, которая делает следующий более безопасным.