35-4 · الفصل 35 · 6 دقيقة قراءة

النشر لا ينتهي حتى تتأكد من أنه يعمل

كيف تتأكد من أن النشر ناجح؟ دليل عملي لفرق DevOps و SRE لبناء أنظمة تغذية راجعة من الإنتاج لاكتشاف الأخطاء وتحسين قرارات النشر.

النشر لا ينتهي حتى تتأكد من أنه يعمل

يدفع فريق إصدارًا جديدًا إلى الإنتاج. خط الأنابيب أخضر. سجل النشر لا يظهر أي أخطاء. يتنفس الجميع الصعداء وينتقلون إلى المهمة التالية. بعد ساعتين، يرسل عميل بريدًا إلكترونيًا للدعم يقول إن صفحة الدفع معطلة. يتدافع الفريق للتحقيق، ويتراجع عن النشر، ويقضي اليوم التالي في معرفة الخطأ الذي حدث.

هذا السيناريو شائع. العديد من الفرق تتعامل مع النشر على أنه منتهٍ بمجرد بدء تشغيل الإصدار الجديد على خوادم الإنتاج. لكن من الناحية العملية، لا يكتمل النشر إلا عندما تعرف ما إذا كان هذا الإصدار يعمل بشكل جيد للمستخدمين.

الإنتاج ليس بيئة معقمة

عندما يصبح الإصدار الجديد مباشرًا، فإنه يدخل بيئة لا يمكن لبيئة الاختبار (staging) محاكاتها بالكامل أبدًا. يجلب المستخدمون الحقيقيون بيانات حقيقية، وأنماط حركة مرور حقيقية، وتكوينات أجهزة حقيقية. تحدث أشياء لم تتوقعها أي بيئة اختبار.

قد يصبح استعلام كان يعمل بشكل جيد مع ألف صف في بيئة الاختبار بطيئًا جدًا مع مليون صف في الإنتاج. قد يكسر تغيير في واجهة برمجة التطبيقات (API) بدا متوافقًا مع الإصدارات السابقة عميلًا للهاتف المحمول لم يتم تحديثه منذ ستة أشهر. قد تربك ميزة جديدة بدت رائعة في مراجعات التصميم المستخدمين لدرجة أن لا أحد ينقر عليها.

هذه ليست إخفاقات. إنها إشارات. السؤال هو ما إذا كان فريقك مستعدًا لالتقاطها.

الإشارات المهمة

الفرق الجيدة لا تنتظر حتى يبلغ المستخدمون عن المشاكل. إنها تنشئ أنظمة آلية تلتقط الإشارات من الإنتاج. الإشارات الأكثر فائدة تقع في عدة فئات:

تغيرات معدل الخطأ. إذا ارتفعت معدلات الخطأ بعد النشر مباشرة، فمن المحتمل أن شيئًا ما معطل. زيادة بنسبة 5 في المئة عبر جميع نقاط النهاية (endpoints) تتطلب على الأرجح تراجعًا فوريًا. زيادة بنسبة 0.1 في المئة على نقطة نهاية نادرًا ما تُستخدم قد تكون خطأً لإصلاحه في الإصدار التالي.
تدهور زمن الاستجابة. غالبًا ما تشير الاستجابات الأبطأ إلى اختناقات في قاعدة البيانات، أو استعلامات غير فعالة، أو تنافس على الموارد. هذه الإشارة مهمة بشكل خاص لأن المستخدمين قد لا يشتكون فورًا، لكنهم سيبدأون في التخلي عن الخدمة.
انخفاض حجم المعاملات. يمكن أن يعني الانخفاض المفاجئ في المعاملات المكتملة أن المستخدمين يواجهون أخطاء، أو يعلقون في تدفق معين، أو يستسلمون ببساطة. هذه الإشارة أصعب في الكشف لأنها تتطلب مقارنة حركة المرور الحالية بخطوط الأساس التاريخية.

كل إشارة تعني شيئًا مختلفًا. المفتاح هو معرفة أي الإشارات تتطلب إجراءً فوريًا وأيها يمكن أن تنتظر.

إليك مثال عملي لكيفية قيام فريق بأتمتة قرار التراجع بناءً على معدل الخطأ:

#!/bin/bash
# فحص صحي بعد النشر: استعلام عن معدل الخطأ والتراجع إذا تجاوز 5%
THRESHOLD=5.0
DEPLOY_ID=$(curl -s "https://monitoring.example.com/api/v1/deploy/latest" | jq -r '.id')
ERROR_RATE=$(curl -s "https://monitoring.example.com/api/v1/query?query=error_rate{deploy_id=$DEPLOY_ID}" | jq -r '.data.result[0].value[1]')

if (( $(echo "$ERROR_RATE > $THRESHOLD" | bc -l) )); then
  echo "معدل الخطأ $ERROR_RATE% يتجاوز الحد المسموح $THRESHOLD%. جاري التراجع..."
  kubectl rollout undo deployment/my-app
  exit 1
else
  echo "معدل الخطأ $ERROR_RATE% ضمن الحدود المسموحة. تم تأكيد النشر."
fi

من الإشارة إلى السبب الجذري

بمجرد اكتشاف إشارة، الخطوة التالية هي إيجاد السبب الجذري. هل هو خطأ في الكود؟ عدم تطابق في التكوين؟ مشكلة في البيانات؟ مشكلة في البنية التحتية؟ الإجابة تحدد من يصلحها وكيف.

يوضح مخطط التدفق التالي كيف يمكن للفريق الانتقال من النشر إلى اكتشاف الإشارة، وتحليل السبب الجذري، واتخاذ الإجراء.

flowchart TD A[نشر الإصدار الجديد] --> B[مراقبة الإشارات] B --> C{الإشارة طبيعية؟} C -->|نعم| D[تأكيد النشر] C -->|لا| E[التحقيق في السبب الجذري] E --> F{خطأ في الكود؟} F -->|نعم| G[إصلاح الكود] F -->|لا| H{مشكلة في التكوين؟} H -->|نعم| I[إصلاح التكوين] H -->|لا| J{بيانات أو بنية تحتية؟} J -->|نعم| K[إصلاح البيانات/البنية التحتية] J -->|لا| L[تصعيد المشكلة] G --> M[تراجع أو إصلاح عاجل] I --> M K --> M L --> M M --> B

هذا هو المكان الذي تعلق فيه العديد من الفرق. يرون ارتفاعًا في الأخطاء ويفترضون فورًا أن الكود هو الخطأ. لكن في بعض الأحيان يكون الكود سليمًا والمشكلة هي قيمة تكوين تختلف بين بيئة الاختبار والإنتاج. وأحيانًا يتم تشغيل ترحيل مخطط قاعدة البيانات (schema migration) بشكل صحيح ولكن تم نشر كود التطبيق قبل انتهاء الترحيل.

الفريق الناضج لا يصلح المشكلة المباشرة فقط. بل يصلح أيضًا العملية التي سمحت بحدوث المشكلة. إذا تسبب ترحيل قاعدة البيانات في مشكلة، أضف فحوصات الترحيل إلى خط الأنابيب. إذا انحرفت تكوينات بيئة الاختبار والإنتاج، اجعلها متطابقة. إذا كان نوع معين من التغييرات يسبب مشاكل باستمرار، قم بتحديث قائمة التحقق من النشر لالتقاطه مبكرًا.

التغذية الراجعة تحسن عملية اتخاذ القرار

التغذية الراجعة من الإنتاج لا تتعلق فقط بإصلاح الأخطاء. إنها تساعد الفرق أيضًا في تقييم قراراتهم الخاصة. هل تذكر معايير الجاهزية التي وضعتها قبل النشر؟ هل منعت المشاكل بالفعل؟ أم أن مشكلة خطيرة تسربت لأن معاييرك لم تغطِ ذلك السيناريو؟

باستخدام بيانات حقيقية من الإنتاج، يمكن للفرق تعديل معايير النشر الخاصة بهم. يمكنهم رؤية أي الفحوصات فعالة وأيها يخلق ثقة زائفة. يمكنهم تحديد الأنماط: ربما تحدث جميع حوادث قاعدة البيانات في أيام الجمعة، لذا يتوقفون عن نشر تغييرات قاعدة البيانات يوم الجمعة. ربما تحدث جميع حوادث التكوين عندما يكون عضو معين في الفريق في إجازة، لذا يضيفون مراجعًا احتياطيًا.

هذه هي الطريقة التي تتحسن بها عمليات النشر بمرور الوقت. ليس باتباع أفضل الممارسات من كتاب، ولكن بالتعلم من بيانات الإنتاج الخاصة بك.

سرعة التغذية الراجعة مهمة

كلما وصلت التغذية الراجعة إلى الفريق بشكل أسرع، كلما تمكنوا من الاستجابة بشكل أسرع. لهذا السبب يعد التحقق بعد النشر ممارسة حاسمة. بدلاً من انتظار تراكم الأخطاء، تتحقق الفرق بنشاط من أن الإصدار الجديد يعمل بشكل طبيعي بعد الدقائق أو الساعات الأولى.

يمكن أن يتخذ التحقق بعد النشر عدة أشكال:

اختبارات تدخين (smoke tests) آلية تعمل ضد نقاط نهاية الإنتاج مباشرة بعد النشر.
مقارنات المقاييس التي تظهر لقطات قبل وبعد لمعدلات الخطأ، وأوقات الاستجابة، والإنتاجية.
تحليل السجلات الذي يبحث عن أنماط غير عادية في الدقائق الأولى من حركة المرور.

تذهب بعض الفرق إلى أبعد من ذلك وتقوم بنشر الكناري (canary deployments)، حيث يخدم الإصدار الجديد نسبة صغيرة فقط من حركة المرور. إذا بدت الإشارات جيدة، يتم زيادة حركة المرور تدريجيًا. إذا ساءت الإشارات، يتم التراجع عن الكناري تلقائيًا. هذا النهج يحد من نطاق الضرر مع الاستمرار في تقديم تغذية راجعة حقيقية من الإنتاج.

التغذية الراجعة تحتاج إلى نظام

جمع التغذية الراجعة عديم الفائدة إذا لم يكن هناك نظام لإدارتها. تحتاج الفرق إلى طريقة لجمع الإشارات، وتصفية الضوضاء، وترتيب أولويات الإجراءات. لوحة القيادة المليئة بالرسوم البيانية ليست كافية. يجب أن يساعد النظام الفريق على اتخاذ قرارات أفضل.

هذا يعني تحديد عتبات واضحة لكل إشارة. "إذا تجاوز معدل الخطأ 2 في المئة لأكثر من خمس دقائق، استدع المهندس المناوب." "إذا تضاعف زمن الاستجابة لأي نقطة نهاية حرجة، أنشئ تذكرة للسباق القادم." بدون عتبات، تبدو كل إشارة عاجلة، ويحترق الفريق مطاردة الإنذارات الكاذبة.

كما يعني وجود مسار تصعيد واضح. ليست كل إشارة تحتاج إلى نفس الاستجابة. بعض الإشارات تؤدي إلى تراجع آلي. بعضها يؤدي إلى تذكرة. بعضها يؤدي إلى اجتماع لمناقشة ما إذا كانت عملية النشر بحاجة إلى تغييرات. يجب أن يجعل النظام هذه الفروق واضحة.

قائمة تحقق عملية للتغذية الراجعة من الإنتاج

إليك قائمة تحقق قصيرة لتقييم ما إذا كان فريقك يحصل على تغذية راجعة مفيدة من الإنتاج:

هل لديك تنبيهات آلية لمعدل الخطأ، وزمن الاستجابة، وتغيرات حجم المعاملات بعد كل نشر؟
هل تعرف القيم الأساسية (baselines) لهذه المقاييس قبل النشر؟
هل لديك عتبات واضحة تميز بين "تحقق لاحقًا" و"تراجع الآن"؟
هل تقوم بتشغيل اختبارات تدخين بعد النشر ضد الإنتاج؟
هل تراجع حوادث النشر لتحسين خط الأنابيب والمعايير؟
هل تغير التغذية الراجعة من الإنتاج طريقة بناء خط الأنابيب الخاص بك؟

إذا أجبت بـ "لا" على أكثر من اثنين من هذه الأسئلة، فإن فريقك يعمل بشكل أعمى بعد النشر.

النهاية الحقيقية للنشر

النشر لا ينتهي عندما يكون الإصدار الجديد قيد التشغيل. ينتهي عندما يعرف الفريق أن الإصدار الجديد يعمل بشكل جيد. تأتي هذه المعرفة من أنظمة التغذية الراجعة التي تلتقط الإشارات، وتصف الضوضاء، وتدفع إلى اتخاذ إجراء. بدون هذه الأنظمة، كل نشر هو مقامرة. معها، يصبح كل نشر فرصة تعلم تجعل النشر التالي أكثر أمانًا.