Memahami membangun machine learning klinis melalui pembelajaran interaktif yang terstruktur.
Lab XGBoost merupakan platform simulasi yang ditujukan bagi sejawat intensivist, anestesiologist, maupun residen. Walaupun istilah seperti AUROC, cross-validation, dan hyperparameter tuning lazim ditemukan dalam jurnal kedokteran terkini, pemahaman praktis mengenai proses di baliknya sering kali masih terbatas. Oleh karena itu, lab ini hadir sebagai media pembelajaran interaktif untuk mendemonstrasikan bagaimana suatu model prediksi dibangun, divalidasi internal, dan diinterpretasikan sesuai kaidah metodologi penelitian.
Untuk siapa lab ini ditulis
Lab ini dibuat bagi anestesiologist dan intensivist yang ahli secara klinis tetapi belum pernah menulis baris kode machine learning. Anda mungkin pernah membaca artikel yang melaporkan AUROC 0,87, lalu bertanya: bagaimana alur kerja dalam pembuatan machine learning sehingga mendapat AUROC? Lab ini membantu menelusuri pertanyaan tersebut melalui simulasi, bukan melalui rumus semata.
Apa yang akan Anda kerjakan
- Fase 1 — Feature Explorer. Proses dimulai dari kurva diagonal (AUROC 0,5), lalu fitur klinis seperti P/F ratio, RSBI, albumin, dan balans cairan ditambahkan satu per satu. Perubahan kurva ROC dan AUROC digunakan untuk menilai kontribusi informasi masing-masing fitur. Setelah lima fitur valid, akan ada tiga fitur tambahan yang tampaknya meningkatkan performa, tetapi sebenarnya memperlihatkan sebuah masalah metodologis.
- Fase 2 — Hyperparameter Sandbox. Setelah memahami fitur, pengguna menilai pengaruh jumlah pohon, kedalaman pohon, dan learning rate terhadap performa model. Kurva ROC Train dan Test ditampilkan berdampingan untuk menunjukkan underfitting, overfitting, dan konfigurasi dengan generalisasi yang lebih stabil.
Mengapa ada istilah pohon?
Sawit itu pohon bukan?
Dalam XGBoost, pohon atau tree adalah satu unit pembelajaran tunggal. Ratusan
tree kemudian dibangun secara berurutan. Setiap tree baru memiliki tugas spesifik
untuk mengoreksi kesalahan prediksi yang ditinggalkan oleh tree
sebelumnya, sehingga model dapat menghasilkan probabilitas akhir yang lebih presisi.
Memahami hyperparameter melalui analogi siswa
Bayangkan Anda sedang melatih seorang siswa, yaitu model, untuk menghadapi ujian penting. Tiga hyperparameter utama dapat dipahami melalui cara siswa tersebut belajar.
Jumlah pohon (n_estimators)
Jumlah pohon keputusan menggambarkan berapa banyak unit pembelajaran yang dibangun untuk saling mengoreksi kesalahan. Analogi sederhananya adalah berapa banyak bab atau latihan soal yang dipelajari siswa sebelum ujian.
Terlalu sedikit pohon membuat siswa hanya belajar satu atau dua bab, sehingga pengetahuan yang terbentuk belum utuh. Terlalu banyak pohon dapat membuat siswa membaca detail kecil yang tidak penting dan menghafal isi buku kata demi kata.
Kedalaman pohon (max_depth)
Kedalaman pohon menggambarkan seberapa panjang atau bercabang satu pohon keputusan dalam menganalisis data. Analogi sederhananya adalah seberapa detail cara berpikir siswa saat memecahkan satu soal.
Pohon yang terlalu dangkal membuat model berpikir terlalu sederhana. Pohon yang terlalu dalam membuat model berpikir terlalu rumit dan menghubungkan hal-hal yang sebenarnya tidak berkaitan.
Tingkat pembelajaran (learning rate)
Learning rate atau eta menggambarkan seberapa cepat model mencoba mengoreksi kesalahan dari pohon sebelumnya. Analogi sederhananya adalah kecepatan siswa dalam menyerap materi baru.
Learning rate yang terlalu rendah membuat proses belajar sangat lambat. Learning rate yang terlalu tinggi membuat model terburu-buru, melompati konsep penting, dan mudah mengambil kesimpulan yang salah.
Membaca kurva Train dan Test
Underfitting
Kurva ROC Train dan Test sama-sama rendah, biasanya berada dekat garis diagonal dengan nilai AUC sekitar 0,5-0,6. Artinya, model terlalu sederhana dan belum mampu menjawab dengan baik saat latihan maupun saat diuji pada data baru.
Overfitting
Kurva ROC Train sangat tinggi, tetapi kurva ROC Test merosot jauh di bawahnya. Jarak yang lebar antara kedua kurva menunjukkan bahwa model terlalu menghafal data latihan dan gagal saat menghadapi kasus baru.
Kondisi optimal
Kurva ROC Train dan Test sama-sama tinggi serta posisinya saling berdekatan. Artinya, model memahami pola dengan baik dan mampu menghasilkan performa yang mirip pada data baru.
Yang akan Anda pahami nantinya
- Intuisi praktis tentang AUROC: kapan nilai 0,85 dapat dianggap informatif, dan kapan nilai tersebut dapat menyesatkan.
- Kemampuan membaca artikel machine learning klinis secara kritis, terutama dalam menilai bagian metode.
- Pemahaman terhadap tiga masalah yang sering muncul dalam penelitian AI klinis: data leakage, identifier pasien, dan korelasi palsu.
- Pemahaman mengapa kalimat "kami melakukan 5-fold cross-validation untuk tuning" itu penting, bukan basa-basi metodologi.
Tiga jebakan yang akan Anda jumpai
Setelah lima fitur valid ditambahkan di Fase 1, tiga fitur tambahan terbuka. Kenaikan AUROC yang tampak pada fitur tersebut perlu dibaca secara hati-hati karena tidak setiap fitur bermakna di dunia klinis. Dalam pengembangan model machine learning di bidang kesehatan, ada tiga jebakan besar yang sering membuat model terlihat sangat cerdas saat diuji di komputer, tetapi gagal saat digunakan pada pasien.
-
Data Leakage
Data leakage terjadi ketika informasi yang seharusnya baru diketahui di masa depan tidak sengaja dimasukkan ke dalam data latihan model. Ini seperti memberikan kisi-kisi jawaban ujian sebelum ujian dimulai.
Pada prediksi gagal ekstubasi, contoh fatalnya adalah memasukkan rasio P/F yang diukur dua jam setelah ekstubasi. Nilai tersebut adalah informasi dari masa depan. AUROC dapat melonjak sangat tinggi, tetapi model tidak berguna bagi dokter karena prediksi dibutuhkan sebelum ventilator dicabut, bukan setelahnya.
-
Identifier Pasien
Identifier adalah variabel administratif seperti nomor rekam medis, nomor KTP, atau kode acak pengganti identitas. Data ini tidak memiliki arti klinis atau biologis.
Model dapat menemukan pola kebetulan pada nomor rekam medis, misalnya rentang nomor tertentu yang berhubungan dengan pasien rujukan berat pada periode tertentu. Pola ini akan gagal ketika model diterapkan di institusi lain dengan sistem penomoran yang berbeda.
-
Sinyal Palsu
Sinyal palsu adalah korelasi statistik yang muncul secara kebetulan, padahal secara ilmu medis atau logika klinis tidak ada hubungan yang masuk akal.
Contohnya adalah multiparitas pada pasien ICU dewasa umum. Jika AUROC meningkat setelah variabel tersebut dimasukkan, peningkatan itu tetap harus dicurigai karena tidak ada mekanisme patofisiologis langsung yang menjelaskan hubungannya dengan kegagalan ekstubasi pada populasi ICU campuran.
Fase 2 akan terbuka setelah pengguna mencoba minimal satu fitur dan berada di Fase 1 selama minimal satu menit.
Siapa di balik lab ini
- dr. Eka Satrio Putra, Sp.An-TI — pemilik penelitian, validasi medis, akses dan analisis data MIMIC-IV.
- Sugeng Sulistiyawan — Developer (frontend, pipeline ML, deployment).
Penelitian aslinya dipublikasikan di ekasatrio.id — situs penelitian dr. Eka. Konten edukasi disebarluaskan di bawah CC-BY 4.0; kode aplikasi MIT.
Mulai eksplorasi.
Lab ini berfokus pada pemahaman proses: bagaimana fitur klinis mengubah kurva, bagaimana model dinilai, dan mengapa validitas metodologis sama pentingnya dengan angka performa.
Buka Fase 1 — Feature Explorer