AI Umum

Model Bahasa Besar Berorientasi Bahasa Jepang: RakutenAI-7B

Pengantar

Model Pemrosesan Bahasa Alami (NLP) sangat penting untuk berbagai aplikasi, mulai dari layanan terjemahan hingga asisten virtual. Model-model ini meningkatkan kemampuan untuk memahami dan menghasilkan respons seperti manusia. Model-model ini menjadi semakin canggih dan menawarkan pemahaman dan kemampuan interaksi yang bernuansa seiring kemajuan teknologi.

Tantangan dalam NLP Bahasa Jepang

Tantangan yang terus berlanjut dalam NLP adalah pengembangan model yang dapat memahami dan menghasilkan teks dalam bahasa selain bahasa Inggris, seperti bahasa Jepang. Meskipun ada kemajuan dalam LLM, banyak bahasa yang masih kurang terwakili dalam hal sumber daya yang tersedia untuk melatih model-model ini. Kesenjangan sumber daya ini menyebabkan model yang tidak dapat menangani nuansa bahasa dengan skrip atau struktur tata bahasa yang kompleks, yang memengaruhi kualitas teks yang dihasilkan mesin dan pemahaman model terhadap bahasa tersebut.

RakutenAI-7B: Suite LLM Berorientasi Bahasa Jepang

Para peneliti Rakuten Group, Inc. telah memperkenalkan RakutenAI-7B, sebuah suite LLM berorientasi bahasa Jepang. Suite ini mencakup model dasar bersama dengan model yang disetel untuk instruksi dan obrolan, yang dirilis di bawah lisensi Apache 2.0. Model-model ini dirancang untuk mengakomodasi bahasa Jepang dengan lebih baik, menggabungkan kosakata yang diperluas dan teknik tokenisasi yang ditingkatkan untuk kinerja yang lebih baik.

Metodologi RakutenAI-7B

Metodologi RakutenAI-7B mencakup perluasan kosakata tokenizernya menjadi 48.000 token, yang secara signifikan meningkatkan pemrosesan teks bahasa Jepang dengan meningkatkan rasio karakter per token. Ekspansi strategis ini sangat penting untuk mengelola kompleksitas skrip bahasa Jepang secara efisien. Secara paralel, model mendapat manfaat dari teknik penyaringan data yang ketat yang bertujuan untuk menyempurnakan kualitas set data pelatihan. Set data ini, yang dibersihkan dari informasi pengenal pribadi dan input berkualitas rendah, berukuran sekitar 175 miliar token, memastikan bahwa keluaran model koheren dan relevan.

Kinerja RakutenAI-7B

RakutenAI-7B mengungguli model bahasa besar berorientasi bahasa Jepang lainnya dalam evaluasi tolok ukur, mencapai skor rata-rata 62,83 yang mengesankan pada Japanese LM Harness, lebih dari tiga poin lebih tinggi dari pesaing terdekat. Keunggulan ini meluas ke tugas-tugas bahasa Inggris, membuktikan fleksibilitas model yang kuat. Varian yang disetel untuk instruksi, RakutenAI-7B-instruct, maju lebih jauh, mengamankan skor Japanese LM Harness rata-rata 68,74, memimpin dengan hampir dua poin. Pencapaian kuantitatif ini menyoroti kinerja dan efektivitas RakutenAI-7B yang unggul di berbagai tugas NLP.

Kesimpulan

Kesimpulannya, RakutenAI-7B merupakan langkah maju yang signifikan menuju penciptaan model bahasa yang lebih inklusif dan efisien. Model yang dikembangkan dengan pendekatan sistematis dan set data berkualitas tinggi ini secara konsisten berkinerja baik dalam berbagai tugas NLP, mengungguli model Jepang terbuka lainnya, dan tokenizernya lebih cocok untuk memproses teks bahasa Jepang, yang berpotensi menghasilkan pelatihan dan inferensi yang lebih cepat dan lebih murah. Hasil kuantitatif yang mengesankan menjadikannya sumber daya yang berharga bagi peneliti, pengembang, dan praktisi industri.