9-8 · Bab 9 · 5 menit baca

Saat Pipeline Anda Memutuskan: Menggunakan Hasil Test sebagai Bukti

Pipeline Anda gagal. Apakah itu bug nyata atau test yang flaky? Pelajari cara menggunakan hasil test sebagai bukti untuk keputusan otomatis, gate, threshold, dan menghindari false positive.

Saat Pipeline Anda Memutuskan: Menggunakan Hasil Test sebagai Bukti

Anda push kode, pipeline berjalan, dan Anda menunggu. Beberapa menit kemudian, notifikasi muncul: "Pipeline gagal." Anda membuka laporan, menelusuri log, dan menemukan test yang gagal. Tapi apakah itu masalah nyata, atau hanya test flaky yang tidak ada hubungannya dengan perubahan Anda? Jawabannya menentukan apakah Anda akan memperbaiki kode, menjalankan ulang pipeline, atau mulai mengabaikan kegagalan sama sekali.

Inilah momen di mana hasil test tidak lagi sekadar data, melainkan menjadi bukti untuk pengambilan keputusan. Setiap test yang berjalan di pipeline Anda menghasilkan informasi: berapa banyak yang lulus, berapa banyak yang gagal, berapa lama waktu yang dibutuhkan, dan bagian sistem mana yang rusak. Pertanyaannya adalah, apakah Anda menggunakan informasi itu untuk membuat keputusan yang konsisten dan andal tentang apa yang harus dilakukan selanjutnya?

Test Gating: Gerbang yang Terbuka atau Tertutup

Cara paling sederhana untuk menggunakan hasil test sebagai bukti adalah melalui test gating. Setiap tahap dalam pipeline Anda memiliki gerbang. Gerbang hanya terbuka jika test pada tahap tersebut lulus. Jika gagal, gerbang tetap tertutup, dan pipeline berhenti.

Berikut cara kerjanya dalam praktik:

Diagram alir berikut mengilustrasikan alur keputusan melalui tahapan pipeline, termasuk cabang threshold untuk kegagalan parsial:

flowchart TD A[Build] --> B[Unit Tests] B -->|Semua lulus| C[Gerbang: Terbuka] B -->|Ada yang gagal| D[Gerbang: Tertutup - Berhenti] C --> E[Integration Tests] E -->|Semua lulus| F[Gerbang: Terbuka - Lanjut] E -->|Kegagalan parsial| G{Dalam batas threshold?} G -->|Ya| F G -->|Tidak| H[Gerbang: Tertutup - Berhenti] E -->|Kegagalan kritis| H

Setelah tahap build, pipeline Anda menjalankan unit tests. Jika semua unit tests lulus, gerbang terbuka, dan perubahan dilanjutkan ke integration tests.
Jika ada unit test yang gagal, gerbang tetap tertutup. Pipeline berhenti. Developer mendapat notifikasi: "Perubahan Anda ditolak karena test X gagal di modul Y."

Pendekatan biner ini bekerja dengan baik untuk sebagian besar pemeriksaan otomatis. Ini menciptakan batasan yang jelas: apakah perubahan memenuhi standar kualitas minimum atau tidak. Tidak ada ambiguitas, tidak perlu penilaian manual untuk kegagalan rutin.

Namun, tidak semua situasi cocok dengan model lulus-atau-gagal. Terkadang Anda membutuhkan nuansa.

Threshold: Saat Kegagalan Parsial Masih Dapat Diterima

Beberapa test gagal karena alasan yang tidak terkait dengan kode Anda. Integration tests yang bergantung pada API eksternal mungkin gagal karena server API sedang down, bukan karena perubahan Anda merusak sesuatu. End-to-end tests mungkin gagal karena ketidakstabilan lingkungan. Dalam kasus seperti ini, gerbang keras yang menghentikan segalanya bisa menjadi kontraproduktif.

Di sinilah threshold berperan. Threshold adalah toleransi kegagalan yang telah disepakati sebelumnya. Ini memungkinkan pipeline terus berjalan meskipun beberapa test gagal, selama kegagalan masih dalam batas yang dapat diterima.

Contoh threshold yang berguna:

Pipeline lanjut jika semua internal tests lulus, meskipun external dependency tests gagal
Pipeline lanjut jika test coverage tidak turun lebih dari 5% dari versi sebelumnya
Pipeline lanjut jika hanya test non-kritis yang gagal, tetapi semua critical path tests lulus

Threshold memberikan fleksibilitas pada pipeline Anda tanpa kehilangan ketelitian. Namun, ini memerlukan kalibrasi yang cermat. Jika threshold Anda terlalu longgar, perubahan buruk akan lolos. Jika terlalu ketat, pipeline Anda akan berhenti untuk setiap masalah kecil, dan developer akan mulai mencari cara untuk menghindarinya.

Musuh: False Positive

False positive adalah cara tercepat untuk menghancurkan kepercayaan pada pipeline Anda. Ketika sebuah test gagal tetapi perubahan sebenarnya baik-baik saja, developer belajar untuk mengabaikan kegagalan tersebut. Mereka menjalankan ulang pipeline tanpa menyelidiki. Mereka meminta pengecualian. Mereka mencari jalan pintas.

Begitu kepercayaan hilang, pipeline Anda berhenti menjadi alat pengambilan keputusan dan berubah menjadi hambatan. Developer berhenti memperlakukan kegagalan sebagai sinyal. Mereka menganggapnya sebagai kebisingan.

Untuk mencegah hal ini, setiap kegagalan test perlu dievaluasi. Tanyakan: Apakah kegagalan ini benar-benar disebabkan oleh perubahan yang sedang diuji, atau ada hal lain yang terjadi? Sumber umum false positive meliputi:

Data test yang tidak konsisten dan berubah antar run
Lingkungan test yang tidak stabil dengan konfigurasi yang berbeda
Dependensi yang berubah tanpa koordinasi
Test yang bergantung pada waktu atau urutan eksekusi

Ketika Anda menemukan false positive, perbaiki. Hapus test yang flaky, stabilkan lingkungan, atau perbarui data test. Jangan biarkan test tersebut tetap berada di pipeline Anda dan mengikis kepercayaan seiring waktu.

Gerbang Manual: Saat Otomatisasi Tidak Cukup

Beberapa perubahan tidak dapat diverifikasi sepenuhnya oleh test otomatis. Perubahan UI yang memerlukan review visual. Logika bisnis kompleks dengan banyak edge case. Perubahan yang memengaruhi kepatuhan terhadap regulasi. Dalam situasi ini, pipeline Anda harus berhenti di tahap tertentu dan menunggu persetujuan manual.

Hasil test dari tahap sebelumnya menjadi bukti bagi reviewer. Mereka dapat melihat: unit tests lulus, integration tests lulus, security scans lulus. Satu-satunya yang kurang adalah penilaian manusia pada aspek spesifik yang tidak dapat ditangani oleh otomatisasi.

Pendekatan ini menjaga pipeline tetap jujur. Ini tidak berpura-pura bahwa otomatisasi menyelesaikan segalanya. Ini mengakui bahwa beberapa keputusan memerlukan konteks, pengalaman, dan pemahaman manusia.

Membuat Hasil Test Mudah Diakses

Semua ini tidak akan berhasil jika developer tidak dapat dengan mudah memahami apa yang gagal dan mengapa. Notifikasi yang hanya mengatakan "Pipeline gagal" tanpa detail tidak berguna. Developer perlu melihat:

Test mana yang gagal
Input apa yang digunakan
Output apa yang diharapkan
Apa yang sebenarnya terjadi
Di mana menemukan kode yang relevan

Jika informasi ini terkubur dalam log yang panjang atau tersembunyi di balik dashboard yang rumit, developer akan berhenti memeriksanya. Mereka akan menganggap pipeline sebagai gangguan, bukan alat.

Desain pipeline yang baik membuat informasi kegagalan terlihat segera. Notifikasi itu sendiri harus berisi konteks yang cukup bagi developer untuk memutuskan apakah akan menyelidiki atau menjalankan ulang. Laporan harus menautkan langsung ke test yang gagal dan kode yang relevan.

Pipeline sebagai Sistem Pengambilan Keputusan

Ketika Anda menggunakan hasil test sebagai bukti untuk keputusan, pipeline Anda tidak lagi sekadar runner otomatis. Ia menjadi sistem pengambilan keputusan yang konsisten, terukur, dan dapat dipercaya. Setiap perubahan yang mencapai produksi telah melewati serangkaian gerbang yang mengevaluasi risikonya.

Ini tidak berarti pipeline Anda harus kaku. Ia harus beradaptasi seiring tim Anda belajar apa yang berhasil dan apa yang tidak. Tinjau threshold Anda secara teratur. Evaluasi apakah kegagalan itu nyata atau false positive. Sesuaikan gerbang Anda berdasarkan pengalaman.

Daftar Periksa Praktis

Tentukan kriteria lulus/gagal yang jelas untuk setiap tahap pipeline
Tetapkan threshold hanya untuk kegagalan non-kritis, dan tinjau setiap bulan
Lacak tingkat false positive dan perbaiki test flaky segera
Buat laporan kegagalan terlihat dan dapat ditindaklanjuti dalam notifikasi
Gunakan gerbang manual hanya untuk keputusan yang benar-benar membutuhkan penilaian manusia

Yang Terpenting

Pipeline yang membuat keputusan yang baik adalah pipeline yang dipercaya oleh tim Anda. Kepercayaan itu berasal dari perilaku yang konsisten, sinyal yang jujur, dan kemauan untuk memperbaiki apa yang rusak. Ketika tim Anda melihat pipeline hijau, mereka harus tahu bahwa perubahan itu aman. Ketika mereka melihat pipeline merah, mereka harus tahu persis apa yang harus diperbaiki. Itulah perbedaan antara pipeline yang menjalankan test dan pipeline yang membantu Anda mengirimkan perangkat lunak yang lebih baik.