Laboratorium ilmiah · ekasatrio.id

Memahami cara membuat model prediksi berbasis machine learning secara terstruktur.

Laboratorium XGBoost merupakan wahana interaktif yang menjelaskan cara membangun model prediksi berbasis machine learning dalam bentuk eksplorasi bertahap. Kamu dapat menambahkan variabel prediktor, mengamati efeknya pada perubahan kurva ROC, dan membaca kode Python yang merepresentasikan alur analisis.

Bukan alat keputusan klinis. Lab ini diperuntukkan untuk belajar. Seluruh model disiapkan sebelumnya dari data MIMIC-IV.

Dua fase progresif: fitur dan hyperparameter

Pemahaman dibangun dari seleksi fitur atau variabel prediktor, kemudian pengaturan hyperparameter dan evaluasi kurva ROC.

01

Fase 1 — Feature Explorer

Dimulai dari kurva diagonal (AUROC 0,5), kemudian P/F ratio, RSBI, albumin, dan fitur klinis lain ditambahkan secara bertahap. Perubahan AUROC digunakan untuk menunjukkan kontribusi fitur sekaligus memperkenalkan masalah data leakage, identifier, dan irrelevansi klinis.

  • 10 fitur valid (respiratori, metabolik, demografi, cairan)
  • 3 fitur demonstratif untuk data leakage, identifier, dan irrelevansi klinis
  • Penjelasan teknis maupun klinis, dan kode Python untuk setiap langkah
Buka Fase 1 →
02

Fase 2 — Hyperparameter Sandbox

Setelah memahami peran fitur, pengguna mengevaluasi pengaruh hyperparameter terhadap performa model. Perbandingan kurva Train dan Test memperlihatkan underfitting, overfitting, serta konfigurasi dengan keseimbangan generalisasi yang lebih baik.

  • Kurva ROC Train dan Test ditampilkan berdampingan
  • 3 hyperparameter dasar dan 3 parameter lanjutan yang dibuka bertahap
  • Diagnosis otomatis dengan konteks klinis
Buka Fase 2 →

Glosarium singkat

Tiga istilah dasar yang sering muncul di sepanjang dua fase laboratorium. Klik untuk membuka.

Training data dan testing data

Training data atau data latih adalah sekumpulan data yang digunakan untuk melatih model prediktif agar mampu mengenali pola dan membuat prediksi. Testing data atau data uji adalah data yang sengaja disimpan dan tidak pernah dilihat model selama pelatihan. Dalam praktiknya, data sering dibagi dengan proporsi sekitar 80% untuk training dan 20% untuk testing.

Kurva Train dan kurva Test

Kurva Train adalah kurva ROC yang dihasilkan dari dataset training. Kurva Test adalah kurva ROC yang dihasilkan dari dataset testing. Ibarat seorang siswa, kurva Train menggambarkan hasil saat ia belajar dari buku, sedangkan kurva Test menggambarkan hasil saat ia menjawab soal baru berdasarkan pemahaman yang sudah dibentuk.

Underfitting

Underfitting adalah keadaan ketika model prediktif terlalu sederhana sehingga tidak mampu menangkap pola atau tren di dalam data. Akibatnya, model menghasilkan akurasi yang buruk, baik pada training data maupun pada test data.

Mulai dari eksplorasi fitur.

Fase 1 dapat langsung dibuka melalui browser.

Mulai Fase 1
100%