5-3 · الفصل 5 · 4 دقيقة قراءة

متى يحتاج فريقك إلى مهندسي SRE والمنصات

دليل عملي يشرح متى يصبح دورا Site Reliability Engineering وPlatform Engineering ضروريين لفرق التطوير، مع علامات واضحة وقائمة تدقيق سريعة.

متى يحتاج فريقك إلى مهندسي SRE والمنصات

فريقك يؤدي عمله بشكل جيد. عمليات النشر تتم عدة مرات في اليوم. خط الأنابيب يعمل بنجاح. الكود يصل إلى الإنتاج بسلاسة. الجميع يشعر بالإنتاجية.

ثم تبدأ الشقوق في الظهور.

ميزة جديدة تُطرح، وفي غضون ساعات ينفد الذاكرة من خادم ما. استعلام قاعدة بيانات من الإصدار الأخير يبطئ كل شيء. عملية النشر نجحت، لكن التطبيق يعمل ببطء، ولا أحد يعرف السبب.

المطورون مشغولون بكتابة الميزات، لكنهم يُسحبون باستمرار لحل مشاكل الإنتاج. شخص DevOps مرهق في إصلاح خطوط الأنابيب والبيئات بينما يتعامل مع طلبات فرق متعددة. عمل الجميع يتعطل، لكن لا أحد لديه الوقت للتعمق في الأسباب الجذرية.

هذه هي اللحظة التي يصبح فيها دورين منطقيين: هندسة موثوقية الموقع (SRE) وهندسة المنصات (Platform Engineering).

ما يفعله SRE فعلياً

SRE ليس مجرد اسم آخر لعمليات التشغيل. إنه دور يركز على موثوقية الأنظمة في الإنتاج، ويُقاس بشكل موضوعي.

بدلاً من انتظار حدوث عطل ثم إصلاحه، يحدد SRE أهدافاً واضحة. يضع أهداف مستوى الخدمة (SLOs) مثل "يجب أن يكون التطبيق متاحاً بنسبة 99.9% من الوقت هذا الشهر" أو "وقت الاستجابة أقل من 200 مللي ثانية". عندما تبدأ هذه الأهداف في التدهور، يحقق SRE في السبب الجذري ويضمن أن الإصلاح دائم، وليس مجرد رقعة مؤقتة.

يبني SRE أيضاً الممارسات التي تمنع إرهاق الفريق: إجراءات الاستجابة للحوادث، وتحليلات ما بعد الحادث التي تركز على التعلم بدلاً من إلقاء اللوم، وتخطيط السعة الذي يمنع المفاجآت. بدون SRE، تقع الفرق في حلقة رد فعلية: شيء ينكسر، أصلحه، شيء آخر ينكسر، أصلحه مرة أخرى، دون فهم لماذا تتكرر نفس الأنماط.

الفرق الرئيسي بين SRE ودور التشغيل التقليدي هو التركيز على القياس والوقاية. SRE لا يبقي الأضواء مضاءة فقط. بل يضمن بقاءها مضاءة حتى مع نشر الفريق بشكل أسرع وأكثر تكراراً.

ما تحله هندسة المنصات

هندسة المنصات تعالج نوعاً مختلفاً من الألم.

مع نمو مؤسستك، يبدأ كل فريق منتج في بناء خطوط الأنابيب والبيئات والأدوات الخاصة به. فريق واحد يستخدم نهجاً للنشر. فريق آخر يستخدم شيئاً مختلفاً تماماً. التوثيق يتأخر. كل عضو جديد في الفريق يحتاج أسابيع قبل أن يتمكن من النشر بشكل مستقل.

مهندسو المنصات يبنون ما يُسمى منصة المطور الداخلية. اعتبرها طبقة من الخدمات المشتركة التي يمكن لكل فريق استخدامها: توفير البيئات، تشغيل خطوط الأنابيب، إدارة الوصول إلى قاعدة البيانات، طرح إصدارات جديدة. فرق المنتجات لم تعد بحاجة لبناء هذه القدرات من الصفر. هم فقط يستخدمون المنصة.

هذا لا يحل محل DevOps. كل فريق لا يزال لديه شخص يتعامل مع احتياجات خط الأنابيب والنشر الخاصة به. لكن المنصة توفر أساساً متسقاً يجعل عمل الجميع أخف. بدلاً من إعادة اختراع العجلة في كل مرة، تبني الفرق على شيء متين وموحد.

علامات تدل على حاجتك لهذه الأدوار

لا يوجد رقم سحري لعدد المهندسين أو عمليات النشر الذي يشعل الحاجة إلى SRE أو مهندسي المنصات. لكن العلامات عادة ما تكون مرئية:

حوادث الإنتاج تتكرر. نفس أنواع الأعطال تحدث كل بضعة أسابيع، ولا أحد لديه الوقت لإصلاحها بشكل دائم.
المطورون يشكون من أن عمليات النشر بطيئة أو معقدة. ما كان يستغرق دقائق أصبح يستغرق ساعات من التنسيق.
البنية التحتية تبدو هشة. الفرق تتردد في إجراء تغييرات لأنهم يخافون من كسر شيء ما.
دمج مطور جديد يستغرق أسابيع قبل أن يتمكن من نشر أول تغيير له.
فرق مختلفة تستخدم أدوات وعمليات مختلفة تماماً لنفس المهام.

إذا كنت تتعرف على هذه الأنماط، فقد حان الوقت للتفكير في جلب SRE وهندسة المنصات. هذه الأدوار ليست ضرورية من اليوم الأول. لكن عندما تزداد سرعة التسليم ويزداد تعقيد البنية التحتية، تصبح الفرق بين فريق يستمر في التقدم وفريق يعلق في مستنقع التشغيل.

كيف تعمل هذه الأدوار معاً

SRE وهندسة المنصات يكملان بعضهما البعض. SRE يركز على موثوقية ما يعمل في الإنتاج. هندسة المنصات تركز على تسهيل بناء ونشر موثوق للفرق.

الرسم البياني أدناه يوضح كيف يتفاعل SRE وهندسة المنصات دون تداخل.

flowchart TD subgraph SRE[هندسة موثوقية الموقع] S1[تحديد SLOs و SLIs] S2[الاستجابة للحوادث وتحليلات ما بعد الحادث] S3[تخطيط السعة] S4[مراقبة الإنتاج] end subgraph Platform[هندسة المنصات] P1[منصة المطور الداخلية] P2[خطوط أنابيب الخدمة الذاتية] P3[توفير البيئات] P4[أدوات موحدة] end S1 -- متطلبات الموثوقية --> P1 P4 -- بيانات المراقبة --> S4 S2 -- رؤى الحوادث --> P2 P3 -- بيئات مستقرة --> S3

مثال عملي: فريق المنصة يبني خط أنابيب نشر قياسي تستخدمه كل فرق المنتجات. فريق SRE يراقب كيف تؤثر عمليات النشر هذه على موثوقية الإنتاج. عندما يتسبب نشر في تدهور الأداء، يبلغ SRE بذلك، ويقوم فريق المنصة بتعديل خط الأنابيب لالتقاط مشاكل مماثلة في وقت مبكر.

كلا الدورين يقللان العبء المعرفي على المطورين. المطورون لا يحتاجون للتفكير في تفاصيل البنية التحتية أو مقاييس الموثوقية. يكتبون الكود، يرفعونه، والمنصة تتولى الباقي. SRE يضمن أن المنصة نفسها تبقى موثوقة.

قائمة تدقيق عملية سريعة

إذا كنت تقيّم ما إذا كان فريقك يحتاج هذه الأدوار، راجع هذه القائمة:

هل لديك حوادث إنتاج متكررة لا يملك أحد الوقت للتحقيق فيها بشكل صحيح؟
هل يوقف المطورون بانتظام عملهم على الميزات للتعامل مع مشاكل تشغيلية؟
هل تستخدم فرق مختلفة طرق نشر مختلفة لنفس نوع التطبيق؟
هل يستغرق دمج مطور جديد أكثر من أسبوع قبل أن يتمكن من النشر؟
هل تتجنب تغييرات البنية التحتية لأنك تخشى كسر الأشياء؟
هل تفتقر إلى أهداف موثوقية واضحة لأنظمتك في الإنتاج؟

إذا أجبت بنعم على ثلاثة أو أكثر، ابدأ التخطيط لـ SRE أو هندسة المنصات. ابدأ صغيراً. شخص واحد يركز على الموثوقية أو شخص واحد يبني أدوات مشتركة يمكن أن يحدث فرقاً كبيراً.

الخلاصة العملية

SRE وهندسة المنصات ليسا أدواراً فاخرة للشركات الكبيرة فقط. إنها استجابات عملية لمشاكل محددة تظهر مع توسع الفرق في تسليمها. عندما تصبح مشاكل الإنتاج متكررة، وعندما تصبح البنية التحتية غير متسقة، وعندما يقضي المطورون وقتاً في التشغيل أكثر من الميزات، هذه الأدوار تدفع ثمنها بسرعة. لا يضيفون بيروقراطية. يزيلون الاحتكاك. ويتركون بقية الفريق يركز على ما يجيدونه: بناء وشحن البرمجيات.