AI Umum

Infini-Gram: Memperluas dan Meningkatkan Model N-Gram Melampaui Batas Tradisional

Pendahuluan

Model bahasa saraf besar (LLM), yang telah dilatih pada korpus triliun token, telah mencapai kemajuan kinerja yang luar biasa (Touvron et al., 2023a; Geng & Liu, 2023). Namun, manfaat skalabilitas data tersebut untuk model bahasa n-gram tradisional (LM) masih perlu dieksplorasi. Makalah dari University of Washington dan Allen Institute for Artificial Intelligence ini menyelidiki relevansi n-gram LM di era LLM saraf dan memperkenalkan kemajuan luar biasa dalam modernisasi mereka. Para penulis menegaskan utilitas berkelanjutan dari n-gram LM dalam analisis teks dan peningkatan LLM saraf.

Infini-Gram: Sebuah Mesin N-Gram yang Inovatif

Untuk mengatasi hal ini, mereka memodernisasi n-gram LM tradisional dengan meningkatkan data pelatihan hingga 1,4 triliun token yang belum pernah terjadi sebelumnya, menyaingi ukuran korpus teks sumber terbuka utama (Together, 2023; Soldaini et al., 2023). Ini merupakan n-gram LM terbesar hingga saat ini.

Berangkat dari batasan historis pada n (misalnya, n ≤ 5), para penulis menyoroti keuntungan dari nilai n yang lebih besar. Gambar 1 mengilustrasikan peningkatan kapasitas prediksi n-gram LM dengan nilai n yang lebih besar, yang menantang batasan konvensional. Akibatnya, mereka memperkenalkan konsep ∞-gram LM, dengan n yang tidak terbatas, menggunakan varian backoff (Jurafsky & Martin, 2000) untuk meningkatkan akurasi.

∞-gram LM memanfaatkan array sufiks, menggantikan tabel hitungan n-gram yang tidak praktis. Implementasi ini, yang disebut sebagai mesin infini-gram, mencapai efisiensi yang luar biasa dengan penyimpanan 7 byte per token. Array sufiks, yang dibangun pada 1,4 triliun token menggunakan node CPU 80-inti dalam waktu kurang dari tiga hari, memastikan latensi rendah, kueri hemat sumber daya pada kurang dari 20 milidetik untuk penghitungan n-gram. Mesin infini-gram, sebuah bukti inovasi, menjadikan indeks pada disk sebagai bagian integral dari inferensi.

Kueri dan Optimasi

∞-gram LM, sebuah perluasan konseptual dari n-gram LM, menggunakan backoff secara bijaksana untuk meningkatkan akurasi prediksi. Kelangkaan dalam estimasi ∞-gram memerlukan interpolasi dengan LLM saraf, yang mengatasi masalah kebingungan. Makalah ini memperkenalkan jenis kueri yang didukung oleh Infini-gram, yang menunjukkan tolok ukur latensi yang mengesankan pada Tabel 1.

Membangun implementasi array sufiks, makalah ini menguraikan metode yang efisien untuk penghitungan n-gram, pengambilan posisi kemunculan, dan identifikasi dokumen. Strategi sharding mengurangi latensi yang sebanding dengan jumlah shard, mengoptimalkan waktu pemrosesan. Optimasi cerdas, seperti penggunaan kembali hasil pencarian dan pencarian pada disk, lebih meningkatkan kecepatan komputasi ∞-gram.

Aplikasi dan Prospek

Aplikasi Infini-gram di berbagai LLM saraf, termasuk GPT-2, GPT-Neo, LLaMA-2, dan SILO, menunjukkan peningkatan kebingungan yang konsisten (Tabel 2). Makalah ini menggarisbawahi pentingnya keragaman data, yang mengungkapkan keefektifan ∞-gram dalam melengkapi LLM saraf di seluruh seri model yang berbeda. Analisis dengan ∞-gram menjelaskan teks yang ditulis manusia dan yang dibuat mesin. Khususnya, ∞-gram menunjukkan akurasi tinggi dalam memprediksi token berikutnya berdasarkan awalan dokumen yang ditulis manusia. Makalah ini menetapkan korelasi positif antara LLM saraf dan ∞-gram, yang menunjukkan potensi yang terakhir untuk meningkatkan kinerja LM dalam memprediksi teks yang ditulis manusia.

Makalah ini diakhiri dengan pandangan visioner, yang menyajikan aplikasi awal dari mesin Infini-gram. Dari memahami korpus teks hingga mengurangi pelanggaran hak cipta, kemungkinannya beragam. Para penulis mengantisipasi analisis yang lebih mendalam dan aplikasi inovatif yang didorong oleh Infini-gram.