21-1 · Глава 21 · 5 мин. чтения

Почему нельзя просто удалить столбец в базе данных

Разбираем, почему удаление столбца в production-базе данных почти всегда приводит к сбоям. Объясняем паттерн expand-contract и даём чек-лист безопасного удаления схемы.

Почему нельзя просто удалить столбец в базе данных

Ваша команда только что обновила код приложения для работы с новой схемой базы данных. Старый столбец выглядит как балласт. Вы хотите прибраться. И вы его удаляете.

Через несколько минут логи начинают захлёбываться ошибками. Пользователи сообщают, что функция, работавшая пять минут назад, теперь возвращает пустые страницы. Кто-то из ночной смены звонит — пакетный job, запускающийся в полночь, только что упал. Следующие два часа вы разбираетесь, что пошло не так.

Этот сценарий знаком командам любого размера. Желание немедленно удалить старую схему понятно, но в production-системе оно почти всегда приводит к обратному эффекту. Вот почему.

Старые инстансы всё ещё работают

Самая частая причина провала удаления схемы — не все экземпляры приложения ещё обновлены. В production развёртывание происходит постепенно. Вы обновляете один сервер, затем следующий, затем ещё один. В этом окне часть серверов всё ещё работает на старом коде.

Когда старый инстанс пытается прочитать или записать данные в столбец, которого больше нет, база данных возвращает ошибку. Эта ошибка превращается в неудачный запрос. Неудачный запрос — в жалобу пользователя. Проблема не в новом коде, а во временном разрыве между шагами развёртывания.

Даже если вы используете blue-green развёртывание или canary-релизы, принцип остаётся тем же: в любой момент во время выкатки работают несколько версий приложения. Все они используют одну базу данных. Если схема изменится до того, как все инстансы обновятся, что-то сломается.

Миграция данных редко бывает мгновенной

Вторая проблема — данные. Старые столбцы и таблицы часто всё ещё содержат информацию, которая не была перенесена в новую структуру. Возможно, скрипт миграции успешно отработал на стейджинге, но в production набор данных в десять раз больше. Может быть, есть внешние ключи, требующие ручной проверки. Или сама миграция занимает часы и не может быть выполнена в одно окно обслуживания.

Если вы удалите схему до завершения миграции, данные будут потеряны. Их восстановление означает восстановление из бекапа, что приводит к простою и риску потери данных, записанных после создания бекапа. Для таблиц с высокой интенсивностью записи этот разрыв может быть значительным.

Некоторые команды предполагают, что могут сначала перенести данные отдельным шагом, а затем удалить схему. Это работает в теории, но на практике всегда всплывают краевые случаи. Запланированный job, о котором все забыли, отчётный запрос, выполняющийся раз в месяц, легаси-интеграция, срабатывающая только при определённых условиях. Эти скрытые потребители старой схемы проявляют себя только после удаления столбца.

Скрытые зависимости повсюду

Это подводит нас к самой сложной проблеме: неизвестным зависимостям. Не все потребители вашей схемы базы данных задокументированы. И не все они — приложения, которые вы контролируете.

Рассмотрим такие сценарии:

Пакетный job, написанный другой командой, запускается каждую ночь и читает из таблицы, которую вы собираетесь удалить.
Инструмент отчётности запрашивает старый столбец для дашборда, который никто больше не поддерживает.
Мониторинговый скрипт проверяет конкретную таблицу для верификации свежести данных.
Сторонняя интеграция отправляет данные на endpoint, который пишет в старую схему.

Ничего из этого не видно в коде вашего приложения. Ничего из этого не найдётся grep'ом по вашему репозиторию. Они становятся заметными только когда ломаются.

Худшая часть — некоторые из этих сбоев молчаливы. Запрос, ссылающийся на удалённый столбец, может не упасть сразу. Он может вернуть NULL или пустые наборы данных, и потребляющая система может интерпретировать это как валидные данные. В итоге вы получаете испорченные отчёты, некорректные дашборды или пайплайны данных, которые молча выдают неверные результаты. К тому времени, когда кто-то замечает проблему, первопричина погребена под слоями последующей обработки.

Необратимые изменения усиливают риск

Фундаментальная проблема прямого удаления схемы — его необратимость. Как только столбец или таблица исчезли, единственный способ вернуть их — полное восстановление базы данных. Это означает простой. Это означает потенциальную потерю данных. Это означает, что ваша команда находится под давлением и должна быстро всё исправить — а это именно тот момент, когда совершаются ошибки.

Сравните это с добавлением нового столбца. Добавление обратимо: если что-то пошло не так, вы можете удалить только что добавленный столбец. Удаление — нет. Как только вы решились на удаление, вы встали на путь без лёгкого отката.

Эта асимметрия — причина, по которой опытные команды относятся к удалению схемы как к многошаговому процессу, а не к одному действию. Они не удаляют старую схему, пока не убедятся, что все потребители мигрировали. И они строят эту уверенность на наблюдениях, а не на предположениях.

Безопасный подход: расширение, затем сжатие

Вместо того чтобы удалять старую схему и надеяться, что ничего не сломается, существует лучший паттерн. Он состоит из двух фаз.

Диаграмма ниже сравнивает два пути.

flowchart TD A["Хотите удалить столбец?"] --> B{"Старые инстансы ещё работают?"} B -->|Да| C["Используйте expand-contract"] B -->|Нет| D{"Скрытые зависимости?"} D -->|Да| C D -->|Нет| E["Немедленное удаление"] E --> F["Риск: ошибки, потеря данных, невозможность отката"] C --> G["Добавьте новый столбец"] G --> H["Заполните данные"] H --> I["Двойная запись в оба столбца"] I --> J["Переключите чтение на новый"] J --> K["Мониторьте проблемы"] K --> L["Удалите старый столбец"]

Сначала расширение: добавьте новый столбец или таблицу, сохранив старую. Обе структуры существуют одновременно. Код приложения обновляется для записи в обе или для чтения из новой с возвратом к старой при необходимости. На этом этапе вы мониторите ошибки, проверяете корректность записи данных и подтверждаете, что все потребители используют новую структуру.

Затем сжатие: как только у вас есть доказательства, что никто больше не зависит от старой схемы, удалите её. Это не догадка. У вас есть логи, метрики и анализ запросов, показывающие, что старый столбец не использовался в течение разумного периода. Только после этого вы его удаляете.

Этот паттерн называется expand-contract, и это стандартный подход для безопасного внесения обратно несовместимых изменений схемы. Он занимает больше времени, но предотвращает те production-инциденты, которые превращают простую чистку в отладочную сессию всей командой.

Следующий SQL-фрагмент сравнивает рискованное одношаговое удаление с безопасным многошаговым процессом.

-- НЕБЕЗОПАСНО: удаление столбца немедленно
ALTER TABLE users DROP COLUMN old_plan;

-- БЕЗОПАСНЕЕ: подход expand-contract

-- Шаг 1: Добавьте новый столбец
ALTER TABLE users ADD COLUMN new_plan VARCHAR(50);

-- Шаг 2: Заполните данные из старого столбца в новый
UPDATE users SET new_plan = old_plan WHERE new_plan IS NULL;

-- Шаг 3: Обновите приложение для записи в оба столбца
-- (обрабатывается в коде, не в SQL)

-- Шаг 4: После подтверждения отсутствия чтений старого столбца удалите его
ALTER TABLE users DROP COLUMN old_plan;

Практический чек-лист перед удалением схемы

Прежде чем удалять любой столбец или таблицу, проверьте следующие условия:

Все экземпляры приложения работают на новом коде как минимум один полный цикл развёртывания.
Ни один запрос не обращался к старой схеме в production как минимум неделю.
Все пакетные job'ы, отчёты и интеграции, которые могли использовать старую схему, обновлены или выведены из эксплуатации.
Миграция данных завершена и проверена, включая исторические записи.
Существует план отката, не требующий полного восстановления базы данных.

Если хотя бы одно из этих условий не выполнено, вы не готовы к удалению.

Вывод

Удаление столбца базы данных — это не задача по уборке. Это production-изменение с необратимыми последствиями. Безопасный способ — сохранить старую схему, пока у вас не будет доказательств, что она никому не нужна. Сбор таких доказательств требует времени, но это единственный способ избежать ночного звонка о сломанной функции, которая раньше работала отлично.