35-3 · Bab 35 · 5 menit baca

Persetujuan Deployment Tidak Berarti Memperlambat Tim

Pelajari cara menerapkan risk-based governance untuk deployment: menyelaraskan tingkat pengawasan dengan risiko perubahan tanpa memperlambat tim. Cocok untuk DevOps, SRE, dan platform engineer.

Persetujuan Deployment Tidak Berarti Memperlambat Tim

Anda memiliki perubahan yang siap diluncurkan. Sudah diuji, sudah direview, dan sudah ada di cabang (branch) menunggu untuk di-deploy. Namun sebelum ada yang bisa menekan tombol, muncullah pertanyaan: siapa yang perlu menyetujui ini?

Beberapa tim menjawab dengan mendaftar setiap orang yang mungkin terkena dampak. Manajer harus menandatangani. Lead engineer perlu melihatnya. QA lead harus mengonfirmasi. Petugas keamanan ingin melakukan review. Tanpa Anda sadari, Anda sudah memiliki lima orang yang perlu menyetujui satu deployment, dan masing-masing membutuhkan waktu antara satu jam hingga dua hari untuk merespons.

Hasilnya bisa ditebak. Tim menunggu. Deployment terhambat. Dan ketika sesuatu akhirnya salah, semua persetujuan itu tidak mencegah masalah tersebut. Prosesnya hanya menambah keterlambatan tanpa menambah keamanan.

Ini adalah jebakan yang umum. Semakin banyak persetujuan terasa seperti semakin banyak kendali. Namun dalam praktiknya, lapisan persetujuan seringkali menciptakan rasa aman yang palsu sambil memperlambat semua orang. Pertanyaannya bukan siapa yang harus menyetujui. Pertanyaannya adalah seberapa besar risiko yang dibawa oleh perubahan ini dan apakah tim siap untuk menanganinya.

Tata kelola berbasis risiko: menyelaraskan pemeriksaan dengan dampak

Pendekatan yang lebih baik adalah menyelaraskan tingkat pengawasan dengan risiko aktual dari perubahan tersebut. Ini disebut tata kelola berbasis risiko (risk-based governance), namun idenya lebih sederhana dari namanya.

Perubahan berisiko rendah harus bergerak cepat. Perubahan berisiko tinggi harus mendapatkan lebih banyak pemeriksaan. Pemeriksaan tersebut tidak harus berarti menunggu orang untuk menyetujui. Pemeriksaan bisa berarti pengujian otomatis yang berjalan lebih menyeluruh, verifikasi manual pada bagian tertentu, atau membatasi berapa banyak pengguna yang terpengaruh jika terjadi kesalahan.

Pertimbangkan dua contoh. Tim Anda ingin mengubah warna tombol di halaman pengaturan. Dampaknya sangat kecil. Pengguna mungkin tidak akan menyadarinya. Jika ada yang rusak, skenario terburuknya adalah tombol yang sulit dilihat. Perubahan ini bisa langsung masuk ke produksi tanpa menunggu siapa pun.

Sekarang bayangkan tim Anda perlu mengubah skema basis data untuk tabel transaksi. Dampaknya besar. Kesalahan bisa merusak data atau kehilangan catatan pelanggan. Perubahan ini membutuhkan lebih banyak persiapan: uji migrasi di lingkungan yang mirip produksi, siapkan rencana rollback, dan minta seseorang yang memahami basis data untuk memverifikasi skrip.

Berikut adalah cuplikan pipeline YAML yang menerapkan ide ini dengan melewatkan persetujuan manual untuk perubahan berisiko rendah dan mewajibkannya untuk perubahan berisiko tinggi:

# .github/workflows/deploy.yml (excerpt)
name: Deploy
on: [push]

jobs:
  deploy:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Determine risk level
        id: risk
        run: |
          changed=$(git diff --name-only ${{ github.event.before }} ${{ github.sha }})
          if echo "$changed" | grep -qE "^(db/|src/payments/)"; then
            echo "level=high" >> $GITHUB_OUTPUT
          else
            echo "level=low" >> $GITHUB_OUTPUT
          fi
      - name: Manual approval for high-risk changes
        if: steps.risk.outputs.level == 'high'
        uses: trstringer/manual-approval@v1
        with:
          secret: ${{ secrets.APPROVAL_TOKEN }}
          approvers: team-leads
      - name: Deploy
        run: ./deploy.sh

Tim yang sama, pipeline deployment yang sama, tetapi tingkat pengawasan yang berbeda. Itulah tata kelola berbasis risiko dalam praktik.

Cara menentukan tingkat risiko

Tim membutuhkan cara praktis untuk memutuskan apakah suatu perubahan berisiko rendah atau tinggi. Berikut adalah empat faktor yang membantu:

Berikut adalah diagram alir yang memetakan penilaian risiko ke jalur deployment yang sesuai:

flowchart TD A[Perubahan siap] --> B{Menilai tingkat risiko} B -->|Risiko rendah| C[Pengujian otomatis lulus] C --> D[Deploy langsung] B -->|Risiko sedang| E[Pengujian otomatis + verifikasi manual] E --> F[Deploy dengan pemantauan] B -->|Risiko tinggi| G[Pemeriksaan lengkap: uji beban, rencana rollback, review rekan] G --> H[Pengiriman progresif: canary atau feature flag] H --> I[Pantau dan rollback jika diperlukan]

Seberapa luas dampaknya? Apakah perubahan mempengaruhi satu fitur kecil atau seluruh sistem? Perubahan pada halaman admin yang jarang digunakan memiliki dampak lebih kecil dibandingkan perubahan pada alur login.

Seberapa kritis bagian yang diubah? Apakah bagian tersebut menangani data pengguna, pembayaran, atau autentikasi? Area-area tersebut layak mendapatkan lebih banyak kehati-hatian dibandingkan perubahan kosmetik.

Seberapa mudah untuk dibatalkan? Bisakah Anda rollback dalam hitungan detik, atau membutuhkan waktu berjam-jam? Migrasi basis data seringkali lebih sulit untuk dibalikkan daripada perubahan kode. Rilis aplikasi seluler lebih sulit ditarik kembali dibandingkan deployment web.

Seberapa siap tim menghadapi kegagalan? Apakah Anda memiliki pemantauan yang dapat menangkap masalah dengan cepat? Apakah ada runbook untuk menangani masalah? Jika tim memiliki observabilitas yang baik dan langkah pemulihan yang jelas, mereka dapat bergerak lebih cepat bahkan pada perubahan yang lebih berisiko.

Faktor-faktor ini membantu tim membuat keputusan yang konsisten. Tim yang sama dapat melakukan deploy sepuluh perubahan kecil dalam sehari tanpa hambatan, lalu membutuhkan waktu lebih lama untuk satu perubahan besar. Itu bukan inkonsistensi. Itu adalah manajemen risiko yang proporsional.

Kriteria kesiapan, bukan daftar persetujuan

Alih-alih bertanya siapa yang perlu menandatangani, tentukan kondisi apa yang harus dipenuhi sebelum deployment. Ini adalah kriteria kesiapan (readiness criteria), dan kriteria tersebut harus berasal dari perubahan itu sendiri, bukan dari jabatan seseorang.

Untuk perubahan berisiko rendah, kriteria kesiapan mungkin sederhana: semua pengujian otomatis lulus, dan tidak ada error baru yang muncul di staging.

Untuk perubahan berisiko tinggi, kriteria kesiapan mungkin mencakup: pengujian beban selesai, skrip migrasi diverifikasi oleh orang kedua, rencana rollback didokumentasikan dan diuji, serta dasbor pemantauan dikonfirmasi berfungsi.

Kriterianya objektif. Tidak bergantung pada siapa yang memiliki suara paling keras atau pangkat tertinggi. Bergantung pada apa yang dibutuhkan perubahan agar aman.

Pendekatan ini membuat tim tetap bergerak. Perubahan berisiko rendah tidak terhambat oleh persetujuan yang tidak perlu. Perubahan berisiko tinggi mendapatkan perhatian yang layak tanpa berubah menjadi permainan menunggu tanda tangan yang sebenarnya tidak mengurangi risiko.

Daftar periksa praktis untuk tim Anda

Jika Anda ingin mulai menerapkan ini hari ini, berikut adalah kerangka kerja sederhana:

Untuk setiap perubahan, tanyakan: apa skenario terburuk yang bisa terjadi?
Jika skenario terburuknya kecil, deploy tanpa menunggu.
Jika skenario terburuknya serius, tentukan pemeriksaan apa yang diperlukan sebelum deployment.
Jadikan pemeriksaan tersebut sebagai bagian dari proses, bukan langkah persetujuan terpisah.
Tinjau kriteria secara berkala. Apa yang terasa berisiko enam bulan lalu mungkin sudah menjadi rutinitas sekarang.

Kesimpulan

Kecepatan dan keamanan bukanlah hal yang berlawanan. Tim tercepat bukanlah tim dengan persetujuan paling sedikit. Mereka adalah tim yang menyelaraskan proses mereka dengan risiko aktual dari setiap perubahan. Ketika Anda berhenti bertanya siapa yang perlu menyetujui dan mulai bertanya apa yang dibutuhkan perubahan agar aman, Anda menghilangkan gesekan yang tidak perlu tanpa menghilangkan perlindungan yang diperlukan. Tim Anda bergerak lebih cepat, dan produksi Anda tetap stabil.