5-3 · Bab 5 · 4 menit baca

Kapan Tim Anda Membutuhkan SRE dan Platform Engineer

Kenali tanda-tanda tim Anda membutuhkan Site Reliability Engineering (SRE) dan Platform Engineering. Panduan praktis untuk DevOps, SRE, dan platform engineer.

Kapan Tim Anda Membutuhkan SRE dan Platform Engineer

Tim Anda selama ini berjalan baik. Deployment terjadi beberapa kali sehari. Pipeline selalu hijau. Kode meluncur ke production dengan mulus. Semua orang merasa produktif.

Lalu retakan mulai muncul.

Fitur baru diluncurkan, dan dalam hitungan jam server kehabisan memori. Query database dari rilis terbaru memperlambat semuanya. Deployment berhasil, tapi aplikasi terasa lamban, dan tidak ada yang tahu penyebabnya.

Developer sibuk menulis fitur, tapi terus-menerus ditarik ke masalah production. Orang DevOps kewalahan memperbaiki pipeline dan environment sambil melayani permintaan dari banyak tim. Pekerjaan semua orang terinterupsi, tapi tidak ada yang punya waktu untuk menggali akar masalah.

Inilah saatnya dua peran ini mulai masuk akal: Site Reliability Engineering (SRE) dan Platform Engineering.

Apa yang Sebenarnya Dilakukan SRE

SRE bukan sekadar nama lain untuk operasional. Ini adalah peran yang berfokus pada keandalan sistem di production, diukur secara objektif.

Alih-alih menunggu sesuatu rusak lalu memperbaikinya, SRE menetapkan target yang jelas. Mereka menentukan Service Level Objectives (SLO) seperti "aplikasi harus dapat diakses 99,9% bulan ini" atau "waktu respons di bawah 200 milidetik." Ketika target itu mulai meleset, SRE menyelidiki akar penyebabnya dan memastikan perbaikannya permanen, bukan sekadar tambalan.

SRE juga membangun praktik yang mencegah tim kelelahan: prosedur respons insiden, postmortem yang fokus pada pembelajaran bukan menyalahkan, dan capacity planning yang mencegah kejutan. Tanpa SRE, tim jatuh ke siklus reaktif: sesuatu rusak, perbaiki, sesuatu lain rusak, perbaiki lagi, tanpa pernah mengerti mengapa pola yang sama terus berulang.

Perbedaan utama antara SRE dan peran operasional tradisional adalah fokus pada pengukuran dan pencegahan. SRE tidak sekadar menjaga sistem tetap menyala. Mereka memastikan sistem tetap menyala bahkan saat tim melakukan deployment lebih cepat dan lebih sering.

Apa yang Dipecahkan oleh Platform Engineering

Platform engineering mengatasi jenis masalah yang berbeda.

Seiring pertumbuhan organisasi, setiap tim produk mulai membangun pipeline, environment, dan perangkatnya sendiri. Satu tim menggunakan satu pendekatan untuk deploy. Tim lain menggunakan pendekatan yang sama sekali berbeda. Dokumentasi tertinggal. Setiap anggota tim baru butuh berminggu-minggu sebelum bisa deploy secara mandiri.

Platform engineer membangun apa yang disebut internal developer platform. Anggap saja sebagai lapisan layanan bersama yang bisa digunakan setiap tim: menyediakan environment, menjalankan pipeline, mengelola akses database, meluncurkan versi baru. Tim produk tidak perlu lagi membangun kemampuan ini dari awal. Mereka cukup menggunakan platform.

Ini tidak menggantikan DevOps. Setiap tim tetap memiliki seseorang yang menangani kebutuhan pipeline dan deployment spesifik mereka. Tapi platform menyediakan fondasi yang konsisten yang meringankan pekerjaan semua orang. Alih-alih menemukan roda setiap saat, tim membangun di atas sesuatu yang solid dan terstandarisasi.

Tanda-Tanda Anda Membutuhkan Peran Ini

Tidak ada angka ajaib jumlah engineer atau deployment yang memicu kebutuhan SRE atau platform engineer. Tapi tanda-tandanya biasanya terlihat:

Insiden production terus berulang. Jenis kegagalan yang sama terjadi setiap beberapa minggu, dan tidak ada yang punya waktu untuk memperbaikinya secara permanen.
Developer mengeluh deployment terasa lambat atau rumit. Yang dulu hanya butuh menit, sekarang butuh jam koordinasi.
Infrastruktur terasa rapuh. Tim ragu melakukan perubahan karena takut sesuatu akan rusak.
Onboarding developer baru butuh berminggu-minggu sebelum bisa melakukan deployment pertama.
Tim yang berbeda menggunakan alat dan proses yang sama sekali berbeda untuk tugas yang sama.

Jika Anda mengenali pola-pola ini, saatnya mempertimbangkan untuk mendatangkan SRE dan platform engineering. Peran ini tidak diperlukan sejak hari pertama. Tapi ketika kecepatan pengiriman meningkat dan kompleksitas infrastruktur bertambah, mereka menjadi pembeda antara tim yang terus maju dan tim yang terjebak dalam lumpur operasional.

Bagaimana Kedua Peran Ini Bekerja Sama

SRE dan platform engineering saling melengkapi. SRE berfokus pada keandalan apa yang berjalan di production. Platform engineering berfokus pada memudahkan tim untuk membangun dan melakukan deployment secara andal.

Diagram di bawah menunjukkan bagaimana SRE dan Platform Engineering berinteraksi tanpa tumpang tindih.

flowchart TD subgraph SRE[Site Reliability Engineering] S1[Define SLOs & SLIs] S2[Incident response & postmortems] S3[Capacity planning] S4[Production monitoring] end subgraph Platform[Platform Engineering] P1[Internal developer platform] P2[Self-service pipelines] P3[Environment provisioning] P4[Standardized tooling] end S1 -- reliability requirements --> P1 P4 -- observability data --> S4 S2 -- incident insights --> P2 P3 -- stable environments --> S3

Contoh praktis: Tim platform membangun pipeline deployment standar yang digunakan semua tim produk. Tim SRE memantau bagaimana deployment tersebut memengaruhi keandalan production. Ketika sebuah deployment menyebabkan degradasi performa, SRE menandainya, dan tim platform menyesuaikan pipeline untuk menangkap masalah serupa lebih awal.

Kedua peran ini mengurangi beban kognitif developer. Developer tidak perlu memikirkan detail infrastruktur atau metrik keandalan. Mereka menulis kode, commit, dan platform menangani sisanya. SRE memastikan platform itu sendiri tetap andal.

Daftar Periksa Praktis Cepat

Jika Anda mengevaluasi apakah tim Anda membutuhkan peran ini, jalankan daftar periksa berikut:

Apakah Anda memiliki insiden production berulang yang tidak ada waktu untuk diselidiki dengan benar?
Apakah developer secara teratur menghentikan pekerjaan fitur untuk menangani masalah operasional?
Apakah tim yang berbeda menggunakan metode deployment berbeda untuk jenis aplikasi yang sama?
Apakah onboarding developer baru memakan waktu lebih dari seminggu sebelum bisa melakukan deployment?
Apakah Anda menghindari perubahan infrastruktur karena takut merusak sesuatu?
Apakah Anda kekurangan target keandalan yang jelas untuk sistem production Anda?

Jika Anda menjawab ya untuk tiga atau lebih, mulailah merencanakan SRE atau platform engineering. Mulailah dari yang kecil. Satu orang yang fokus pada keandalan atau satu orang yang membangun perangkat bersama dapat membuat perbedaan signifikan.

Kesimpulan Konkret

SRE dan platform engineering bukanlah peran mewah hanya untuk perusahaan besar. Mereka adalah respons praktis terhadap masalah spesifik yang muncul saat tim meningkatkan skala pengiriman mereka. Ketika masalah production menjadi berulang, ketika infrastruktur menjadi tidak konsisten, ketika developer menghabiskan lebih banyak waktu pada operasional daripada fitur, peran ini membayar dirinya sendiri dengan cepat. Mereka tidak menambah birokrasi. Mereka menghilangkan gesekan. Dan mereka membiarkan anggota tim lainnya fokus pada apa yang terbaik mereka lakukan: membangun dan mengirimkan perangkat lunak.