AI Umum

Model Bahasa Terbuka Sailor: Menjembatani Hambatan Bahasa di Asia Tenggara

Pendahuluan

Dalam lanskap linguistik komputasi yang terus berkembang, menjembatani hambatan bahasa telah menghasilkan inovasi yang luar biasa, terutama di wilayah yang ditandai dengan keragaman bahasa yang kaya. Asia Tenggara, dengan keragaman linguistiknya, menghadirkan tantangan unik bagi teknologi bahasa. Model tradisional sering kali kesulitan memahami perbedaan dan kesamaan yang bernuansa di berbagai bahasa seperti Indonesia, Thailand, Vietnam, Melayu, dan Laos, yang secara signifikan menghambat penerapannya dalam skenario dunia nyata.

Sailor: Suite Model Bahasa yang Disesuaikan

Sebuah tim peneliti dari Sea AI Lab dan Singapore University of Technology and Design telah memperkenalkan “Sailor”, sebuah rangkaian model bahasa ambisius yang disesuaikan dengan kerumitan linguistik wilayah Asia Tenggara. Tidak seperti pendekatan konvensional yang mungkin bergantung pada model generik dan cocok untuk semua, Sailor membedakan dirinya melalui proses penanganan data yang cermat yang mencakup kurasi yang hati-hati, deduplikasi agresif, dan algoritma campuran yang inovatif. Metodologi ini memastikan bahwa Sailor sangat selaras dengan nuansa linguistik bahasa Asia Tenggara, sehingga memfasilitasi pembuatan dan pemahaman teks yang lebih akurat dan bermakna.

Dibangun di atas model Qwen 1.5 yang kuat, Sailor telah dilatih sebelumnya pada korpus yang luas yang berkisar antara 200 dan 400 miliar token, dengan fokus yang disengaja pada bahasa dari wilayah Asia Tenggara. Pelatihan awal yang ekstensif ini telah membekali Sailor dengan kemampuan untuk memahami dan menghasilkan teks di berbagai bahasa, sehingga menetapkan preseden baru di bidang teknologi bahasa multibahasa.

Varian Model Sailor

Varian model yang ditawarkan oleh Sailor, mulai dari ukuran 0,5B hingga 7B, dirancang untuk memenuhi beragam kebutuhan komputasi, memastikan aksesibilitas dan utilitas yang luas.

Kinerja Sailor

Kemanjuran model Sailor digarisbawahi oleh kinerjanya di berbagai tugas pembandingan, sebuah bukti desain dan implementasi unggul mereka. Dalam tugas-tugas seperti menjawab pertanyaan, penalaran akal sehat, pemahaman bacaan, dan ujian standar yang disesuaikan dengan bahasa Asia Tenggara, model Sailor telah menunjukkan kemahiran yang luar biasa. Misalnya, dalam kategori menjawab pertanyaan, model Sailor-7B mencapai skor kecocokan tepat 57,88% pada tolok ukur XQuAD (Thailand), skor 60,53% pada TydiQA (Indonesia), dan 53,81% pada XQuAD (Vietnam), mengungguli pendahulunya dan menetapkan tolok ukur baru untuk akurasi dan keandalan.

Kinerja Sailor dalam penalaran akal sehat dan pemahaman bacaan semakin menunjukkan kemampuan pemahamannya yang canggih. Dalam tolok ukur XCOPA, model Sailor-7B mencapai akurasi 72,2% di seluruh tugas Thailand, Indonesia, dan Vietnam, menunjukkan kecakapannya dalam menafsirkan dan bernalar dengan teks yang kompleks. Demikian pula, dalam pemahaman bacaan, dievaluasi melalui tolok ukur Belebele, skor Sailor-7B sangat tinggi, dengan 44,33% dalam bahasa Indonesia, 45,33% dalam bahasa Vietnam, dan 41,56% dalam bahasa Thailand.

Kesimpulan

Sebagai kesimpulan, pengenalan Sailor merupakan lompatan maju yang signifikan dalam pencarian model bahasa komprehensif yang dapat menavigasi lanskap linguistik yang kompleks di Asia Tenggara. Dengan menggabungkan metodologi canggih dengan pendekatan inklusif terhadap keragaman bahasa, Sailor menjawab kebutuhan mendesak akan teknologi bahasa yang disesuaikan di wilayah tersebut dan menawarkan cetak biru untuk kemajuan masa depan. Keberhasilan Sailor dalam tugas pembandingan menyoroti potensi model khusus dalam meningkatkan pemahaman dan interaksi kita di bidang linguistik komputasi.