38-3 · Глава 38 · 4 мин. чтения

Когда показатели ошибок — просто цифры: зачем вам SLO и Error Budget

Ваш дашборд мониторинга показывает 2% ошибок, задержку 300 мс и падение пропускной способности на 5%. Вы смотрите на цифры и не знаете, плохо ли это. Без SLO и Error Budget вы гадаете. С ними — принимаете решения.

Когда показатели ошибок — просто цифры: зачем вам SLO и Error Budget

Ваш дашборд мониторинга показывает уровень ошибок 2%. Задержка — 300 мс. Пропускная способность упала на 5%. Вы смотрите на цифры, и единственный вопрос в голове: «Это плохо?»

Честный ответ: вы не знаете. Пока нет.

Без четкой границы эти цифры — просто сырые данные. Они не говорят вам, нужно ли разворачивать релиз, откатывать его или бить тревогу. Вам нужна точка отсчета, с которой согласна вся команда. Эта точка называется Service Level Objective, или SLO.

Что на самом деле делает SLO

SLO — это общее соглашение о том, как выглядит «достаточно хорошо» для конкретного сигнала. Это не теоретический идеал. Это практический порог, который ваша команда устанавливает на основе реального опыта, исторических данных и того, чего на самом деле ожидают пользователи.

Например, ваша команда может договориться, что у публичного API уровень ошибок не должен превышать 0,1% за часовое окно. Или что главная страница должна загружаться в среднем не дольше 200 мс. Эти цифры рождаются в разговорах между разработчиками, инженерами по тестированию, SRE и продакт-менеджерами. Они отражают то, что бизнес может выдержать, а пользователи — счесть приемлемым.

Настоящая ценность SLO в том, что он превращает данные observability в инструмент принятия решений. Когда вы видите уровень ошибок 0,15%, вам не нужно устраивать долгие дебаты, насколько это серьезно. SLO уже ответил на вопрос: да, это превышение. Действуйте.

Error Budget: ваш лимит на ошибки

Как только у вас есть SLO, вы можете рассчитать кое-что еще более полезное: error budget.

Error budget — это допустимый объем отказов вашей системы за определенный период. Если ваш SLO гласит, что сервис должен быть доступен 99,9% времени в месяц, то ваш error budget составляет 0,1% от общего времени месяца. Это примерно 43 минуты допустимого простоя или ошибок в месяц.

Относитесь к этому как к ежемесячному лимиту на ошибки. Пока суммарное время ошибок не превышает 43 минут, вы в безопасной зоне. Каждый инцидент, каждый замедленный ответ, каждый неудачный запрос расходует этот бюджет.

Как Error Budget меняет решения о развертывании

Вот где error budget становится практическим инструментом для решений о деплое.

Представьте: ваша команда израсходовала 40 минут из 43-минутного error budget за первую неделю из-за инцидента. Теперь вы хотите развернуть новую версию, которая меняет логику аутентификации. Тесты на стейджинге выглядят хорошо, но у вас осталось всего 3 минуты error budget.

Без error budget решение принимается на основе чутья. Кто-то говорит: «Я думаю, это безопасно». Кто-то другой: «Я не уверен». Дебаты ходят по кругу.

С error budget решение объективно. У вас осталось 3 минуты. Одна небольшая проблема может полностью исчерпать бюджет. Разумное решение — отложить деплой или продолжать только при наличии очень убедительных дополнительных тестов. Error budget дает вам конкретную причину остановиться, а не просто смутное чувство тревоги.

Это работает и в обратную сторону. Когда ваш error budget почти не использован, вы можете разворачиваться с большей уверенностью. У вас есть запас, чтобы пережить мелкие сбои. Команда может двигаться быстрее, зная, что у нее есть запас прочности.

Новый взгляд на отказы

Error budget также меняет реакцию команды на сбои.

Когда вы в рамках бюджета, небольшой сбой — не катастрофа. Это возможность для обучения. Вы можете спокойно разобраться, устранить корневую причину и двигаться дальше. Кнопка паники остается нетронутой.

Но когда error budget исчерпан, приоритеты меняются. Стабильность становится важнее новых функций. Деплои останавливаются. Команда полностью сосредотачивается на снижении числа ошибок и восстановлении бюджета. Это не наказание. Это сигнал, что системе нужно внимание, прежде чем вы сможете безопасно вносить новые изменения.

Это создает здоровое напряжение. Продуктовые команды хотят выпускать фичи. Операционные команды хотят поддерживать стабильность системы. Error budget дает обеим сторонам общий язык для переговоров. «Мы можем выпустить эту фичу, но она съест 10 минут нашего error budget. Оно того стоит?» Это гораздо лучший разговор, чем «Ты блокируешь мой деплой» против «Ты положишь продакшн».

Связь между Observability и решениями о деплое

SLO и error budget находятся на стыке observability и решений о развертывании. Без них у вас есть данные без контекста. Вы видите, как меняются цифры, но не понимаете, что они значат для вашего следующего релиза.

С ними у вас есть четкие границы. Вы можете посмотреть на сигнал, сравнить его с вашим SLO и сразу понять, достаточно ли система здорова, чтобы принять новую версию. Вы можете принимать решения о деплое на основе фактов, а не ощущений.

Практический чек-лист для настройки SLO и Error Budget

Если вы начинаете с нуля, вот краткий чек-лист для старта:

Выберите один сигнал, который важнее всего для ваших пользователей (уровень ошибок, задержка или доступность)
Посмотрите на исторические данные, чтобы понять, что является нормой
Обсудите с командой, какой порог кажется приемлемым
Установите SLO — амбициозный, но реалистичный
Рассчитайте error budget на месяц или неделю
Поделитесь обоими показателями со всей командой
Используйте error budget как шлюз для деплоев

Начните с одного сервиса и одного сигнала. Уточняйте по мере накопления опыта. Вам не нужны идеальные SLO с первого дня. Вам нужна отправная точка, которая даст команде общую систему отсчета для принятия решений.

Итог

SLO и error budget превращают смутную тревогу в конкретные решения. Они дают вашей команде общий язык для ответа на вопросы: когда разворачивать, когда притормозить и когда сосредоточиться на стабильности. Без них вы гадаете. С ними — вы решаете. Установите границы, рассчитайте бюджет и позвольте цифрам направлять ваш следующий деплой.