AI Umum

Keluarga Model Yi: Model Bahasa dan Multimodal yang Menunjukkan Kemampuan Multidimensi yang Kuat

Pendahuluan

Kemajuan kecerdasan buatan didorong oleh ambisi untuk meniru dan memperluas kemampuan kognitif manusia melalui teknologi. Perjalanan ini ditandai dengan pencarian mesin yang memahami bahasa, memproses gambar, dan berinteraksi dengan dunia dengan pemahaman yang hampir seperti manusia.

Keluarga Model Yi

Tim peneliti di 01.AI telah memperkenalkan keluarga model Yi. Tidak seperti pendahulunya, Yi tidak hanya mengurai teks atau gambar secara terpisah, tetapi menggabungkan kemampuan ini, menunjukkan tingkat pemahaman multimodal yang belum pernah terjadi sebelumnya. Dengan melakukan ini, Yi mengatasi tantangan menjembatani kesenjangan antara bahasa manusia dan persepsi visual, yang membutuhkan arsitektur model yang inovatif dan pemikiran ulang tentang bagaimana model dilatih dan kualitas data yang mereka pelajari.

Model sebelumnya sering kali perlu ditingkatkan ketika dihadapkan dengan kebutuhan untuk memahami konteks dalam rentang teks yang panjang atau memperoleh makna dari campuran isyarat teks dan visual.

Seri model mencakup model khusus bahasa yang mampu memproses informasi visual bersama teks. Ini didasarkan pada arsitektur transformator yang telah disempurnakan dengan cermat pada kualitas data, sebuah faktor yang secara signifikan meningkatkan kinerja di berbagai tolok ukur.

Metodologi Pengembangan

Landasan teknis Yi melibatkan pendekatan berlapis untuk membangun dan melatih model. Dimulai dengan model bahasa 6B dan 34B, tim di balik Yi mengembangkannya menjadi model obrolan yang mampu menangani konteks panjang dan mengintegrasikan teknik peningkatan kedalaman. Model-model tersebut dilatih pada korpus yang diperkaya melalui proses deduplikasi dan penyaringan yang ketat, memastikan data yang dimasukkan ke dalamnya tidak hanya banyak tetapi juga berkualitas luar biasa.

Pengembangan model Yi-9 B melibatkan metodologi pelatihan yang baru. Proses dua tahap ini menggunakan kumpulan data yang terdiri dari sekitar 800 miliar token, dengan fokus khusus pada pengumpulan dan pemilihan data terkini untuk meningkatkan pemahaman dan kinerja model dalam tugas terkait pengkodean. Berkat laju pembelajaran yang konstan dan peningkatan ukuran batch yang strategis, model tersebut menunjukkan peningkatan kinerja yang substansial di berbagai tolok ukur, termasuk penalaran, pengetahuan, pengkodean, dan matematika. Metodologi yang ketat ini dan peningkatan kinerja yang dihasilkan menyoroti potensi keluarga model Yi untuk aplikasi AI tingkat lanjut.

Aplikasi

Seri model Yi bukan hanya kemajuan teoretis tetapi juga alat praktis dengan berbagai aplikasi. Kekuatan intinya terletak pada keseimbangan antara kuantitas dan kualitas data serta proses penyempurnaan strategis. Model Yi-34B, misalnya, menyamai kinerja GPT-3.5 tetapi dengan keuntungan tambahan dapat digunakan pada perangkat konsumen, berkat strategi kuantisasi yang efektif. Kepraktisan ini menjadikan seri model Yi alat yang ampuh untuk berbagai aplikasi, mulai dari pemrosesan bahasa alami hingga tugas visi komputer.

Salah satu aspek paling menarik dari seri Yi adalah kemampuannya dalam tugas visi-bahasa. Dengan menggabungkan model bahasa obrolan dengan penyandi transformator visi, Yi dapat menyelaraskan input visual dengan semantik linguistik. Hal ini memungkinkannya untuk memahami dan merespons input yang menggabungkan gambar dan teks. Kemampuan ini membuka dunia kemungkinan untuk aplikasi AI, mulai dari chatbot interaktif yang disempurnakan hingga alat analisis canggih yang dapat menafsirkan kumpulan data visual dan tekstual yang kompleks.


Kesimpulan

Keluarga model Yi oleh 01.AI menandai lompatan maju yang signifikan dalam pengembangan AI yang dapat menavigasi kompleksitas bahasa dan visi manusia. Terobosan ini dicapai melalui:

  • Arsitektur transformator canggih yang dioptimalkan untuk tugas linguistik dan visual.
  • Pendekatan inovatif untuk pemrosesan data yang menekankan kualitas data yang digunakan untuk pelatihan.
  • Integrasi model bahasa dan visi yang sukses memungkinkan pemahaman input multimodal.

Ini telah berkinerja luar biasa di tolok ukur standar dan evaluasi preferensi pengguna, menunjukkan potensinya untuk berbagai aplikasi.