AI Umum

PALO: Model Multimodal Poliglot untuk 5 Miliar Orang

Pendahuluan

Model Multimodal Besar (LMM) yang didorong oleh kemajuan AI telah merevolusi tugas penglihatan dan bahasa, tetapi sebagian besar berfokus pada bahasa Inggris, mengabaikan bahasa non-Inggris. Kelalaian ini mengecualikan miliaran penutur bahasa seperti Mandarin, Hindi, Spanyol, Prancis, Arab, Bengali, Rusia, Urdu, dan Jepang. Kurangnya inklusi linguistik menggarisbawahi perlunya representasi yang lebih luas dalam pengembangan LMM untuk memastikan komunikasi yang efektif di seluruh populasi global yang beragam.

Kemajuan LMM Multibahasa

Kemajuan terbaru dalam LMM dan LLM telah mendorong batas-batas pemrosesan bahasa alami. LLM multibahasa seperti BLOOM dan PaLM mengatasi ketidakseimbangan data dan tantangan kinerja lintas bahasa. Sementara itu, dalam LMM, model seperti Qwen, mPLUG-Owl, dan Ziya-Visual menunjukkan kemampuan dwibahasa, dengan fokus pada bahasa Inggris dan Mandarin. Perkembangan ini menandai kemajuan signifikan dalam pemahaman dan pemrosesan input visual multibahasa.

PALO: Model Multimodal Poliglot

Para peneliti dari Mohamed bin Zayed University of AI dan lembaga lainnya memperkenalkan PALO, LMM multibahasa yang mampu menjawab pertanyaan dalam sepuluh bahasa secara bersamaan. Mereka memanfaatkan kumpulan data instruksi penglihatan-bahasa multibahasa berkualitas tinggi untuk melatih PALO, dengan fokus pada peningkatan kemahiran dalam bahasa sumber daya rendah sambil mempertahankan atau meningkatkan kinerja dalam bahasa sumber daya tinggi. Mereka menyusun kumpulan data penyetelan instruksi multibahasa yang komprehensif dan menyempurnakan LMM canggih di berbagai skala, menunjukkan peningkatan kemahiran bahasa.

Arsitektur dan Komponen

PALO memahami dan menghasilkan konten dalam sepuluh bahasa utama. Berasal dari arsitektur LLaVA dan MobileVLM, ia mengintegrasikan penyandi penglihatan dengan model bahasa, menggunakan CLIP ViT-L/14 untuk penyandian penglihatan. Berbagai proyektor, termasuk proyektor downsample ringan (LDP) untuk MobilePALO-1.7B, digunakan untuk memproses token visual dan kueri pengguna secara efisien, meningkatkan keserbagunaan dan efisiensi model di berbagai pengaturan komputasi. Vicuna adalah LLM untuk versi 7/13B, sedangkan MobileLLaMA adalah model bahasa kecil (SLM) untuk MobilePALO-1.7B. Vicuna menyempurnakan LLaMA-2 pada percakapan pengguna dari ShareGPT, sedangkan MobileLLaMA melakukan pelatihan awal pada token RedPajama-v1 sebelum menyempurnakan data ShareGPT.

Evaluasi dan Hasil

Dalam mengevaluasi kemampuan multibahasa PALO, kinerja yang kuat diamati di seluruh bahasa sumber daya tinggi, dengan model 7/13B mencapai skor rata-rata masing-masing 59,0 dan 63,8. PALO menunjukkan peningkatan kinerja yang signifikan dalam bahasa sumber daya rendah, dengan skor rata-rata meningkat dari 26,0 dan 26,9 menjadi 55,6 dan 59,2 poin untuk model 7B dan 13B, masing-masing. PALO meningkatkan inklusivitas dan kinerja dalam tugas penglihatan-bahasa di berbagai bahasa global.

Kesimpulan

Para peneliti dari Mohamed bin Zayed University of AI, bersama dengan lembaga lain, memperkenalkan PALO, LMM multibahasa yang mampu menjawab pertanyaan dalam sepuluh bahasa secara bersamaan. PALO melayani hampir dua pertiga dari populasi global. Ini dengan tepat menjembatani pemahaman penglihatan dan bahasa di sepuluh bahasa, meliputi sumber daya tinggi (misalnya, Inggris, Mandarin) dan sumber daya rendah (misalnya, Arab, Hindi). Dengan melatih pada kumpulan data multibahasa yang beragam dan menyempurnakan tugas terjemahan bahasa, PALO mencapai peningkatan kinerja yang signifikan di berbagai skala, menunjukkan skalabilitas dan kemampuan generalisasinya.