27-1 · Глава 27 · 5 мин. чтения

Почему управление состоянием и окружением важно до того, как ваша инфраструктура сломается

Узнайте, как конфликты состояния и смешивание окружений приводят к сбоям в CI/CD. Практические советы по управлению state и environment для DevOps и SRE.

Почему управление состоянием и окружением важно до того, как ваша инфраструктура сломается

Представьте, что вы и ваш коллега одновременно управляете одним и тем же сервером. Вы обновляете конфигурацию файрвола, открывая порт 443. Коллега, не зная об этом, меняет ту же конфигурацию на порт 80. Вы оба применяете изменения с разницей в несколько минут. В результате на сервере оказываются противоречивые правила. Чьи изменения вступили в силу? Никто не знает.

Это первая реальная проблема, которая возникает при управлении инфраструктурой через код: побеждает тот, кто применил изменения последним. Но победа не означает, что было применено правильное изменение. Возможно, изменение коллеги было верным, но завершилось на несколько секунд позже. Или ваше было правильным, но его перезаписали. В любом случае, конечное состояние сервера не соответствует ожиданиям ни одного из вас.

У этой проблемы есть название: конфликт состояния (state conflict). Состояние — это просто запись того, как выглядит ваша инфраструктура прямо сейчас. Когда вы пишете код для создания сервера, файл состояния фиксирует, что сервер существует, какого он размера, к какой сети подключен и так далее. Без состояния ваш инструмент не знает, существует ли сервер уже или его нужно создать. Без состояния он также не может определить, что изменилось с момента последнего запуска кода.

Проблема размытия окружений

Теперь рассмотрим другой сценарий. Вы разрабатываете новую функцию на своем ноутбуке. Вам нужен сервер для тестирования. Вы поднимаете сервер в своем облачном аккаунте, тестируете функцию и забываете его удалить. Сервер продолжает работать, накапливая расходы, и никто не знает о его существовании. Через несколько недель команда продакшена замечает незнакомый сервер в том же облачном аккаунте. Был ли он создан намеренно? Для чего он? Безопасен ли он? Никто не может ответить.

Две проблемы — конфликт состояния и смешивание окружений — легче понять, если увидеть их рядом.

flowchart TD subgraph StateConflict["Конфликт состояния"] A["Dev A обновляет файрвол на порт 443"] --> B["Применение запущено"] C["Dev B обновляет файрвол на порт 80"] --> D["Применение запущено позже"] B --> E["Последняя запись побеждает"] D --> E E --> F["Непреднамеренное конечное состояние"] end subgraph EnvMixing["Смешивание окружений"] G["Dev создает сервер в общем аккаунте"] --> H["Нет удаления"] H --> I["Неизвестный ресурс остается"] I --> J["Риск затрат и безопасности"] end

Это проблема смешивания окружений. Окружение — это просто место, где работает ваше приложение или инфраструктура. В идеале окружения разработки, стейджинга и продакшена должны быть четко разделены. Но когда каждый может создавать ресурсы в одном облачном аккаунте без правил, окружения смешиваются. Сервер разработки может случайно подключиться к сети продакшена. База данных продакшена может быть стерта, потому что кто-то запустил скрипт разработки в неправильном контексте.

Почему ручное управление скрывает эти проблемы

Проблемы состояния и окружения не проявляются при ручном управлении инфраструктурой. Когда вы заходите на сервер и меняете конфигурацию по одному параметру, вы точно видите, что происходит. Вы знаете, на каком сервере находитесь. Вы знаете, что изменили. Нет скрытого файла состояния, который можно повредить.

Но когда вы управляете инфраструктурой через код, вы перестаете работать напрямую с серверами. Вы работаете с файлами состояния. Вы меняете код, инструмент читает состояние, сравнивает его с реальностью и вносит изменения. Этот процесс делает все повторяемым и аудитируемым. Но он также вводит новые сценарии отказов.

Файлы состояния могут быть повреждены. Два человека могут одновременно изменять один и тот же файл состояния. Состояние может отклониться от реальности, если кто-то вносит ручные изменения вне инструментария. Окружения могут смешиваться, потому что один и тот же код применяется везде без четких границ.

Ключевые концепции, которые нужно понять

Состояние (State) — это источник истины для вашей инфраструктуры. Оно сообщает вашему инструменту подготовки, что уже существует и что нужно изменить. Популярные инструменты, такие как Terraform, Pulumi и AWS CDK, полагаются на файлы состояния. Без точного состояния эти инструменты не могут определить, что создавать, обновлять или удалять.

Окружение (Environment) — это контекст, в котором работает ваше приложение. Как минимум большинству команд нужны три окружения:

Разработка (Development): Где вы экспериментируете и ломаете вещи. Это окружение должно быть дешевым, быстро восстанавливаемым и изолированным от всего остального.
Стейджинг (Staging): Где вы проверяете изменения перед продакшеном. Оно должно максимально зеркалировать продакшен без такого же уровня риска.
Продакшен (Production): Где реальные пользователи взаимодействуют с вашим приложением. Это окружение имеет самые высокие требования к стабильности.

Что происходит, если игнорировать управление состоянием и окружением

Команды, пропускающие этот фундамент, сталкиваются с предсказуемыми проблемами:

В аккаунтах продакшена появляются серверы-призраки. Никто не знает, кто их создал и зачем. Команды безопасности паникуют.
Деплои ломаются из-за заблокированных файлов состояния. Один пайплайн разработчика удерживает блокировку состояния, блокируя всех остальных.
Стейдж и продакшен расходятся. Изменения, протестированные в стейджинге, работают отлично, но продакшен ведет себя иначе, потому что окружения больше не идентичны.
Случайные изменения в продакшене. Разработчик запускает скрипт, предназначенный для разработки, но его терминал указывает на окружение продакшена. Простое изменение конфигурации кладет сайт.
Откаты становятся невозможными. Файл состояния больше не соответствует реальности, поэтому инструмент не может вернуться к известному хорошему состоянию.

Практический подход к началу работы

Вам не нужна сложная платформенная команда для решения этих проблем. Начните с основ:

Разделите облачные аккаунты или проекты по окружениям. Если вы используете AWS, создайте отдельные аккаунты для dev, staging и prod. Если вы используете GCP, используйте отдельные проекты. Это самая сильная изоляция, которую вы можете получить.
Используйте удаленное хранение состояния с блокировками. Храните файлы состояния в общем месте, например S3, GCS или Azure Blob Storage. Включите блокировку состояния, чтобы два пайплайна не могли одновременно изменять одно и то же состояние.
Называйте ресурсы последовательно. Включайте имя окружения в имя каждого ресурса или тег. Это предотвращает путаницу при просмотре списка серверов.
Автоматизируйте создание окружений. Напишите скрипты или пайплайны, которые создают и уничтожают окружения по требованию. Если вы можете воссоздать окружение с нуля за минуты, вы снижаете риск расхождения состояния.
Ограничьте, кто может применять изменения в продакшене. Используйте шлюзы утверждения или отдельные сервисные аккаунты для деплоев в продакшен. Не всем нужен доступ к продакшену.

Быстрый чеклист для оценки текущей настройки

Можете ли вы перечислить каждый сервер или ресурс в вашем продакшен-окружении прямо сейчас?
Знаете ли вы, кто создал каждый ресурс и зачем?
Можете ли вы воссоздать ваше стейджинг-окружение с нуля менее чем за час?
Хранится ли ваш файл состояния удаленно с включенной блокировкой?
Разделены ли ваши окружения разработки, стейджинга и продакшена по разным облачным аккаунтам или проектам?
Может ли разработчик случайно применить изменение в продакшене со своего ноутбука?

Если вы ответили "нет" на любой из этих вопросов, вам есть над чем работать.

Вывод

Управление состоянием и окружением — это не продвинутая тема, которую нужно решать после того, как инфраструктура уже работает. Это фундамент, который делает возможным все остальное. Без четкого состояния ваш инструментарий не может работать корректно. Без четких окружений ваши изменения будут просачиваться через границы и вызывать непредсказуемые сбои.

Начните с самого простого разделения, которое вы можете реализовать: отдельные облачные аккаунты или проекты для каждого окружения, удаленное состояние с блокировкой и последовательное именование. Только это предотвратит большинство распространенных проблем, с которыми сталкиваются команды, управляющие инфраструктурой через код. Сделайте это до того, как появятся серверы-призраки, а не после.