AI Umum

RareBench: Sebuah Tolok Ukur AI Perintis untuk Mengevaluasi Kemampuan LLM pada 4 Dimensi Kritis dalam Penyakit Langka

Potensi LLM dalam Pengobatan

Model Bahasa Besar (LLM) seperti ChatGPT memiliki potensi luar biasa untuk menafsirkan dan menghasilkan bahasa dengan cara yang sangat mirip dengan manusia. Hal ini telah menarik banyak minat, dan aplikasi LLM dalam perawatan kesehatan dengan cepat menjadi bidang studi baru yang menarik bagi para peneliti AI dan kedokteran klinis. Beberapa penelitian telah menyelidiki potensi LLM untuk membantu dokter dalam diagnosis medis, penulisan laporan klinis, dan pendidikan kedokteran. Namun, kekuatan dan kelemahan LLM dalam pengaturan penyakit langka belum dipelajari secara memadai.

Tantangan dalam Mendiagnosis Penyakit Langka

Diperkirakan 80% dari lebih dari 7.000 penyakit langka yang telah diidentifikasi sejauh ini memiliki komponen herediter. Pasien dengan penyakit langka seringkali salah didiagnosis atau kurang didiagnosis, dan mungkin perlu waktu bertahun-tahun hingga diagnosis konfirmatif dibuat. Identifikasi dan diagnosis penyakit sudah menantang karena tingkat tumpang tindih fenotipik yang tinggi antara penyakit umum dan penyakit langka, dan bahkan antara penyakit langka itu sendiri.

RareBench: Tolok Ukur AI untuk Penyakit Langka

Para peneliti dari Universitas Tsinghua dan Peking Union Medical College Beijing menggunakan LLM untuk melakukan evaluasi menyeluruh terhadap penyakit langka. Mereka mengembangkan RareBench, platform pembandingan lengkap untuk menguji LLM dalam situasi klinis dunia nyata yang menantang seperti ekstraksi fenotipik dan diagnosis diferensial. Mereka membangun grafik pengetahuan yang lengkap untuk penyakit langka dengan mengintegrasikan sumber pengetahuan yang kaya. Dengan memanfaatkan grafik penyakit-fenotip dan struktur hierarki grafik fenotip, mereka membuat algoritma baru untuk permintaan dinamis berbasis nilai Konten Informasi (IC) fenotip. Dalam hal diagnosis diferensial, peningkatan ini sangat meningkatkan, jika tidak melampaui, kinerja LLM yang tidak menyertakan GPT-4.

Hasil Penelitian

Hasil penelitian menunjukkan bahwa GPT-4 saat ini dapat mendiagnosis penyakit langka sama baiknya dengan dokter spesialis berpengalaman. Tim berharap RareBench akan memacu perkembangan dan penggunaan LLM lainnya untuk mengatasi kesulitan yang terkait dengan diagnosis klinis, khususnya untuk penyakit langka.