AI Umum

Metode AI Baru Hasilkan Data Klasifikasi Bahasa Bersumber Daya Rendah dalam Skala Besar

Pengantar

Kekurangan data dalam bahasa bersumber daya rendah dapat diatasi menggunakan terjemahan kata-ke-kata dari bahasa bersumber daya tinggi. Namun, leksikon dwibahasa biasanya membutuhkan lebih banyak tumpang tindih dengan data tugas, yang menyebabkan cakupan terjemahan tidak memadai. Bahasa bersumber daya sangat rendah membutuhkan lebih banyak data berlabel, yang memperlebar kesenjangan kemajuan NLP dibandingkan dengan bahasa bersumber daya tinggi.

Peningkatan Data Lintas Bahasa Berbasis Leksikon

Peningkatan data lintas bahasa berbasis leksikon melibatkan penggantian kata-kata dalam data bahasa bersumber daya tinggi dengan terjemahannya dari leksikon dwibahasa untuk menghasilkan data bagi bahasa bersumber daya rendah. Meskipun efektif untuk berbagai tugas NLP, termasuk terjemahan mesin, klasifikasi sentimen, dan klasifikasi topik, metode yang ada sering kali bergantung pada leksikon khusus domain dan membutuhkan kualitas data pelatihan emas yang lebih tinggi dalam bahasa bersumber daya rendah target. Pendekatan ini menghadapi tantangan dengan spesifisitas domain dan kinerja dibandingkan dengan data asli. Selain itu, cakupan leksikon dan keterbatasan model terjemahan menghambat penerapan yang lebih luas di berbagai bahasa.

LexC-Gen: Metode Baru untuk Generasi Data Klasifikasi

Peneliti dari Departemen Ilmu Komputer dan Institut Ilmu Data di Universitas Brown telah mengusulkan LexC-Gen, sebuah metode untuk menghasilkan data tugas klasifikasi bahasa bersumber daya rendah yang dapat diskalakan. Metode ini memanfaatkan leksikon dwibahasa terlebih dahulu untuk membuat data tugas yang kompatibel dengan leksikon dalam bahasa bersumber daya tinggi, kemudian menerjemahkannya ke dalam bahasa bersumber daya rendah melalui terjemahan kata. Pengkondisian pada leksikon dwibahasa diidentifikasi sebagai aspek penting dari efektivitasnya.

LexC-Gen menunjukkan kepraktisan, hanya membutuhkan satu GPU untuk menghasilkan data yang dapat diskalakan dan kompatibilitas dengan LLM akses terbuka.

Proses LexC-Gen

LexC-Gen menggunakan proses multi-langkah untuk menghasilkan data tugas berlabel untuk bahasa bersumber daya rendah. Ini menggunakan data bahasa bersumber daya tinggi, leksikon dwibahasa, dan model bahasa yang mendukung bahasa bersumber daya tinggi. Pertama, metode ini mengambil sampel kata-kata bahasa bersumber daya tinggi dan label kelas, kemudian menghasilkan data tugas yang kompatibel dengan leksikon menggunakan LLM yang dilatih dengan Controlled-Text Generation (CTG). Setelah menerapkan filter konsistensi input-label, metode ini menerjemahkan data ke dalam bahasa bersumber daya rendah menggunakan terjemahan kata-ke-kata melalui leksikon dwibahasa. Pendekatan ini memastikan skalabilitas, kualitas data, dan terjemahan yang efektif, memfasilitasi penyetelan halus pengklasifikasi untuk tugas bahasa bersumber daya rendah.

Evaluasi dan Hasil

Dalam membandingkan LexC-Gen dengan garis dasar dan terjemahan emas pada tugas analisis sentimen dan klasifikasi topik, metode ini mengungguli semua garis dasar baik dalam tugas analisis sentimen maupun klasifikasi topik. Dalam tugas analisis sentimen dan klasifikasi topik di 17 bahasa bersumber daya rendah, LexC-Gen menunjukkan keunggulan dibandingkan semua garis dasar. Untuk analisis sentimen, menggabungkan LexC-Gen-100K dengan data bahasa Inggris yang ada meningkatkan kinerja sebesar 15,2 poin dibandingkan dengan zero-shot lintas bahasa dan 6,6 poin dibandingkan dengan garis dasar terjemahan kata. Dalam klasifikasi topik, LexC-Gen-100K melampaui zero-shot lintas bahasa dan garis dasar terjemahan kata masing-masing sebesar 18,3 dan 8,9 poin.

Kesimpulan

Peneliti dari Universitas Brown menyajikan LexC-Gen, sebuah solusi untuk menghasilkan data tugas dalam bahasa bersumber daya rendah dengan memanfaatkan LLM untuk membuat data yang kompatibel dengan leksikon, meningkatkan terjemahan dengan leksikon dwibahasa. Melalui penyetelan halus pada data yang dihasilkan ini, LexC-Gen mencapai kinerja yang sebanding dengan data emas yang sulit diperoleh dalam tugas analisis sentimen dan klasifikasi topik. Kepraktisannya menawarkan harapan dalam mengurangi kelangkaan data dalam bahasa bersumber daya rendah, yang berpotensi mempercepat kemajuan NLP untuk komunitas linguistik yang kurang terlayani ini.