Tentang Lab

Mendemistifikasi machine learning untuk klinisi.

Visi

Lab XGBoost adalah platform edukasi interaktif yang mengajarkan konsep machine learning kepada klinisi ICU yang awam ML/AI. Lab ini ekstensi dari ekasatrio.id — situs penelitian yang memuat publikasi prediksi kegagalan ekstubasi pada pasien geriatri ICU dengan XGBoost.

Lab tidak menggantikan paper aslinya — ia menjelaskan bagaimana paper tersebut dibangun, lewat eksperimen langsung yang bisa diulangi siapa saja dengan browser.

Metodologi

Semua model di lab ini tidak dilatih di browser. Kami melatih ribuan kombinasi model di Python (XGBoost + scikit-learn) sebelumnya, lalu mengekspor metrik agregat (AUROC, titik kurva ROC) sebagai JSON statis. Browser tinggal mencari kombinasi yang relevan dengan input user.

Pendekatan pre-computation ini punya 2 keuntungan: (1) interaksi instan tanpa backend, (2) privasi data MIMIC-IV terjaga karena tidak ada record pasien yang sampai ke browser.

3 jenis "fitur menggoda" di Fase 1

Di Fase 1, setelah Anda menambahkan 5 fitur valid, ada 3 fitur ekstra yang ter-unlock dengan label "Eksperimen". Masing-masing menggambarkan kategori jebakan pedagogik yang sering muncul dalam clinical ML:

1. Data Leakage

Fitur diukur setelah outcome (misal P/F ratio 2 jam pasca-ekstubasi). AUROC akan melompat ~0.80 → 0.95 — tampak hebat, tetapi model bukan benar-benar memprediksi, melainkan "mengintip jawaban".

2. Identifier Pasien

Nomor rekam medis (hash). Bukan sinyal klinis — model "menghafal" pola ID yang kebetulan ter-cluster di set training, tetapi tidak akan generalisasi ke RS lain. AUROC naik tipis dan menyesatkan.

3. Irrelevan Klinis

Variabel yang tidak punya plausibilitas mekanistis (misal multiparitas pada ICU dewasa campuran). Sinyal palsu (spurious correlation) kadang muncul karena kebetulan statistik — selalu cek konteks klinis sebelum percaya AUROC naik.

Catatan editorial: versi sebelumnya menggunakan konsep "multikolinearitas / fitur redundan" sebagai jebakan. XGBoost relatif robust terhadap fitur redundan (split berbasis information gain), jadi efeknya pada ROC kurang dramatik. Kami mengganti dengan data leakage sebagai jebakan utama karena lebih relevan dan lebih berbahaya untuk model klinis.

Privasi data

  • Tidak ada record pasien per individu yang sampai ke browser. Hanya AUROC, titik ROC, dan metadata populasi (n, n_positive).
  • Data MIMIC-IV mentah (CSV/parquet) tidak pernah di-commit ke repo Git — block via scripts/data/.gitignore.
  • Setiap commit JSON ke public/data/ di-audit otomatis oleh verify_privacy.py sebelum di-publish.
  • Analytics: Umami self-hosted — privacy-friendly, tanpa cookie, tanpa fingerprinting.

Kontributor

  • dr. Eka Satrio Putra — pemilik penelitian, validasi medis, akses data MIMIC-IV
  • Sugeng Sulistiyawan — Developer (frontend, pipeline ML, deployment, QA)

License

Konten edukasi: CC-BY 4.0. Kode aplikasi: MIT. Data MIMIC-IV: tunduk pada PhysioNet Credentialed Health Data License.