AI Umum

Model Bahasa Multilingual untuk Kedokteran dari Tiongkok

Pendahuluan

Kemajuan terbaru dalam perawatan kesehatan memanfaatkan LLM seperti GPT-4, MedPalm-2, dan alternatif sumber terbuka seperti Llama 2. Meskipun model-model ini, termasuk PMC-LLaMA, MedAlpaca, dan ChatDoctors, unggul dalam aplikasi bahasa Inggris dan bahkan terkadang melampaui rekan sumber tertutup, efektivitasnya dalam kueri medis non-Inggris masih perlu ditingkatkan.

Meskipun dilatih pada kumpulan data yang beragam, LLM multilingual seperti BLOOM dan InternLM 2 membutuhkan bantuan untuk pertanyaan medis dalam bahasa non-Inggris karena data pelatihan mereka kekurangan konten medis. Perbedaan ini menghambat potensi dampaknya pada komunitas yang beragam secara linguistik.

Penelitian

Peneliti dari Universitas Jiao Tong Shanghai dan Laboratorium AI Shanghai telah mengembangkan model bahasa multilingual dan sumber terbuka untuk kedokteran yang bermanfaat bagi audiens yang lebih luas dan beragam secara linguistik dari berbagai wilayah. Ini menyajikan kontribusi dalam tiga aspek:

  • Membangun korpus medis multilingual baru untuk pelatihan
  • Mengusulkan tolok ukur tanya jawab pilihan ganda medis multilingual
  • Menilai berbagai model bahasa sumber terbuka pada tolok ukur

Model akhir, MMedLM 2, dengan 7B parameter, berkinerja lebih baik daripada model sumber terbuka lainnya, menyaingi GPT-4 pada tolok ukur.

Metodologi

Metodologi terdiri dari tiga komponen utama:

  • Pembuatan MMedC: MMedC dikumpulkan dari berbagai sumber, termasuk konten medis yang difilter dari korpora bahasa umum, buku teks medis, situs web medis, dan korpora medis multilingual yang ada.
  • Pelatihan Auto-Regresif: Melibatkan pra-pelatihan LLM yang ada pada MMedC.
  • Pembuatan MMedBench:
    Dibentuk dengan menggabungkan kumpulan data tanya jawab medis multilingual dan menambahkannya dengan penjelasan.

Evaluasi

Evaluasi dilakukan menggunakan tiga pengaturan:

  • Zero-shot
  • Fine-tuning yang efisien parameter (PEFT)
  • Fine-tuning penuh

Dengan metrik termasuk akurasi dan kesamaan alasan, bersama dengan peringkat manusia.

Hasil

Studi ini menyoroti pentingnya pelatihan auto-regresif pada MMedC untuk meningkatkan LLM dalam konteks medis. Menggabungkan sumber data yang beragam, termasuk data medis multilingual dan umum berkualitas tinggi, meningkatkan kinerja LLM. Selain itu, mengintegrasikan alasan selama fine-tuning meningkatkan kinerja tugas-spesifik, sementara LLM dasar yang lebih kuat menghasilkan hasil yang lebih baik.

Implikasi

LLM medis multilingual memiliki implikasi penelitian dan klinis yang signifikan, mengatasi hambatan bahasa, kepekaan budaya, dan kebutuhan pendidikan. Namun, keterbatasannya meliputi cakupan bahasa kumpulan data dan kendala komputasi, yang menunjukkan perluasan dan penyelidikan lebih lanjut ke dalam arsitektur yang lebih besar dan metode augmentasi pengambilan untuk mengurangi kelemahan halusinasi.

Kesimpulan

Studi ini menyebutkan alur kerja otomatis untuk membangun korpus medis multilingual dan tolok ukur baru. MMedC terdiri dari 25,5 miliar token dalam enam bahasa utama, sedangkan MMedBench berfungsi sebagai tolok ukur evaluasi komprehensif untuk LLM medis multilingual. Melalui eksperimen ekstensif dengan sebelas LLM yang ada, studi ini menunjukkan efektivitas pelatihan pada MMedC, menjembatani kesenjangan antara LLM multilingual umum dan domain medis yang rumit. MMedLM 2, model bahasa multilingual pertama dan paling kuat yang dirancang khusus untuk kedokteran, tersedia untuk umum.