45-6 · Глава 45 · 6 мин. чтения

Самая недооцененная часть деплоя: что происходит после того, как пайплайн стал зеленым

Зеленый пайплайн не гарантирует, что приложение работает корректно. Разбираем, почему пост-деплой верификация — самый важный этап, который чаще всего пропускают.

Самая недооцененная часть деплоя: что происходит после того, как пайплайн стал зеленым

Вы только что увидели, как пайплайн стал зеленым. Все стадии пройдены: сборка, тесты, деплой на стейджинг, интеграционные проверки. Релиз на продакшене. Кто-то из команды пишет "задеплоили" в чате и закрывает задачу. Все переходят к следующей задаче.

Но вот неприятная правда: зеленый пайплайн не означает, что приложение работает корректно для пользователей. Это означает лишь то, что автоматические проверки прошли успешно. Продакшен — это другая среда с реальным трафиком, реальными данными и реальными граничными случаями, которые ни один тестовый набор не может полностью симулировать.

Момент после деплоя — это когда начинается настоящая верификация. И это этап, который большинство команд пропускает.

Почему пост-деплой верификация остается без внимания

Есть несколько причин, по которым этот шаг выпадает из процесса. Пайплайн создает ложное ощущение завершенности. Когда все автоматические шлюзы пройдены, кажется естественным объявить успех. Давление перейти к следующей фиче или фиксу велико. И, честно говоря, ручная верификация деплоя кажется медленной и негламурной по сравнению с созданием нового функционала.

Но пропуск верификации означает, что вы узнаете о проблемах тяжелым путем: из жалоб пользователей, из алертов мониторинга спустя часы или из тикета поддержки, в котором сказано "приложение сломалось после вчерашнего обновления".

Цель пост-деплой верификации проста: подтвердить, что новая версия действительно работает как ожидается на продакшене, до того, как пользователи сообщат вам об обратном.

Начните с основ: работает ли правильная версия?

Это звучит настолько очевидно, что даже неловко упоминать, но такое случается чаще, чем команды готовы признать. Пайплайн сообщает об успехе, но продакшен-серверы все еще крутят старый образ. Возможно, деплой не дошел до всех инстансов. Возможно, был использован неправильный тег. Возможно, оркестратор контейнеров молча отказал.

Следующая блок-схема отображает рекомендуемую последовательность проверок после деплоя, включая точки принятия решений, которые могут инициировать откат:

flowchart TD A[Проверить версию] --> B{Верная версия?} B -- Нет --> R[Откат] B -- Да --> C[Health Check] C --> D{Статус 200?} D -- Нет --> R D -- Да --> E[Проверить логи на новые ошибки] E --> F{Новые ошибки?} F -- Да --> R F -- Нет --> G[Проверить метрики: Error Rate и Latency] G --> H{В пределах нормы?} H -- Нет --> R H -- Да --> I[Ручное smoke-тестирование] I --> J{Основные сценарии работают?} J -- Нет --> R J -- Да --> K[Проверить интеграции] K --> L{Все критичные?} L -- Нет --> R L -- Да --> M[Проверить план отката] M --> N[Задокументировать результаты]

Проверьте версию, которая реально запущена. Каждое приложение должно предоставлять endpoint версии или метаданные, показывающие развернутую версию. Сравните ее с тем, что вы планировали задеплоить. Если вы используете контейнеры, проверьте теги образов на запущенных инстансах. Если вы используете виртуальные машины, проверьте логи приложения или страницу статуса.

Вот быстрый способ проверить версию с помощью curl или kubectl:

# Используем curl для проверки endpoint версии
curl -s https://your-app.example.com/version | jq '.version'

# Используем kubectl для проверки тега образа запущенного пода
kubectl get pods -l app=your-app -o jsonpath='{.items[0].spec.containers[0].image}'

Эта проверка занимает тридцать секунд. Она экономит часы отладки в будущем.

Health Checks: абсолютный минимум

У каждого приложения должен быть health check endpoint, не требующий аутентификации. Этот endpoint возвращает простой статус, например {"status": "ok"} с кодом ответа 200. Он сообщает, что процесс приложения жив и отвечает на запросы.

После деплоя дерните этот endpoint. Если он возвращает что-то отличное от 200, что-то не так на самом базовом уровне. Возможно, приложение не смогло запуститься, отсутствует зависимость или конфигурация невалидна.

Если у вашего приложения еще нет health check endpoint, добавьте его до следующего деплоя. Вы будете использовать его каждый раз.

Логи: ищите новые ошибки, а не все ошибки

Любое работающее приложение имеет некоторый уровень шума в логах. Таймауты соединений, ретраи, незначительные предупреждения. Это нормально. Что вам нужно найти после деплоя — это новые ошибки, которых не было раньше.

Сравните паттерны логов за десять минут до деплоя и за десять минут после. Ищите сообщения об ошибках, которых вы никогда не видели. Внезапный всплеск connection refused к базе данных, или permission denied при доступе к файлу, или null pointer exception в коде, который только что изменили.

Речь не о чтении каждой строки лога. Речь о поиске аномалий. Если ваша система логирования это поддерживает, настройте быстрый режим сравнения. Если нет — используйте grep для поиска типичных паттернов ошибок и проверьте, изменилась ли частота.

Метрики: цифры не врут

Логи говорят вам, что произошло. Метрики говорят, как ведет себя система. После деплоя следите за тремя метриками особенно внимательно:

Request rate: трафик идет нормально или резко упал?
Error rate: увеличился ли процент неудачных запросов?
Latency: время ответа стало больше, чем раньше?

Всплеск error rate или latency — самый явный сигнал, что что-то пошло не так. Эти метрики должны быть видны на дашборде в реальном времени, а не в отчете, который приходит на следующее утро. Если у вас еще нет такого дашборда — создайте его. Это самый полезный инструмент для пост-деплой верификации.

Ручное smoke-тестирование: автоматизации недостаточно

Автоматизированные smoke-тесты ценны. Они быстро выявляют регрессии и работают стабильно. Но они не могут поймать все. Кнопка может работать технически, но быть неудачно расположена. Форма может отправлять данные корректно, но показывать сбивающее с толку сообщение об ошибке. Страница может загружаться, но казаться медленной для человека.

После того как автоматические проверки пройдены, кто-то из команды должен вручную пройти по основным пользовательским сценариям. Логин, поиск, оформление заказа или любые другие критически важные функции. Это занимает пять-десять минут. Это ловит проблемы, которые ни один автоматический тест не додумался проверить.

Проверьте интеграции с внешними системами

Ваше приложение, вероятно, зависит от других систем: базы данных, очереди сообщений, внешнего API, почтового сервиса, платежного шлюза. Деплой может сломать эти соединения незаметными способами. Изменение конфигурации может указать на неверный хост базы данных. Новая версия библиотеки может изменить способ подключения к очереди. API-ключ мог истечь.

Проверьте, что критические интеграции все еще работают. Отправьте тестовое письмо. Запишите запись в базу данных. Прочитайте из очереди. Вызовите внешнее API с тестовым payload. Если что-то из этого упадет, вы хотите узнать об этом немедленно, а не когда пользователь сообщит, что его заказ не прошел.

Проверьте, что план отката все еще жизнеспособен

Этот шаг почти всегда забывают. После успешного деплоя команды предполагают, что откат — решенная проблема. Но планы отката деградируют со временем. Старый образ мог быть удален политикой хранения. Скрипт отката мог быть сломан изменениями в инфраструктуре. Миграция базы данных могла стать необратимой.

Перед закрытием деплоя убедитесь, что предыдущая версия все еще доступна и процесс отката работает. Вам не нужно выполнять откат. Просто проверьте, что артефакты существуют и процедура задокументирована. Если критическая проблема всплывет через час, вы будете благодарны, что проверили.

Документируйте то, что нашли

Запишите результаты верификации. Кто что проверял и что нашел? Эта документация служит двум целям. Во-первых, она создает аудиторский след для соответствия требованиям и анализа инцидентов. Во-вторых, она помогает команде улучшать чеклист со временем. Если проблема была пропущена, добавьте новую проверку на будущее.

Это не должно быть сложно. Простая запись в логе деплоя или общем документе — достаточно. Ключевое — последовательность: делайте это каждый раз, а не только когда вспомните.

Практический чеклист пост-деплой верификации

Вот минимальный чеклист, который любая команда может адаптировать:

Подтвердить, что правильная версия запущена на всех инстансах
Health check endpoint возвращает 200
Нет новых паттернов ошибок в логах по сравнению с состоянием до деплоя
Error rate и latency в пределах нормы
Основные пользовательские сценарии работают (ручной или автоматический smoke-тест)
Критические интеграции функциональны (база данных, очередь, внешние API)
Артефакты предыдущей версии все еще доступны для отката
Результаты верификации задокументированы

Это не жесткий список. Адаптируйте его под тип вашего приложения, инфраструктуру и размер команды. Важно выполнять его последовательно, а не только когда вы чувствуете осторожность.

Настоящий финиш

Деплой не завершен, когда пайплайн стал зеленым. Он завершен, когда вы проверили, что новая версия действительно работает на продакшене, в реальных условиях, для реальных пользователей. Эта верификация требует дисциплины, но она спасает вас от позора сломать продакшен и узнать об этом из жалобы клиента.

Сделайте пост-деплой верификацию обязательной частью вашего процесса релиза. Относитесь к ней как к последнему шлюзу в вашем пайплайне, даже если этот шлюз управляется человеком. Вашим пользователям все равно, прошел ли пайплайн. Им важно, чтобы приложение работало.