AI Umum

Cara Memperluas Model Bahasa hingga 128 Ribu Konteks dengan Pra-Pelatihan Berkelanjutan

Model bahasa besar dapat melakukan tugas-tugas yang melampaui paradigma saat ini, seperti membaca kode pada tingkat repositori, memodelkan dialog bersejarah yang panjang, dan memberdayakan agen otonom dengan model bahasa dengan jendela konteks 128 ribu token. Uji Jarum-dalam-Tumpukan baru-baru ini adalah cara populer untuk melihat apakah model dapat menggunakan panjang konteks yang panjang. Dalam uji ini, model diminta untuk mengulangi informasi secara akurat dalam kalimat yang diberikan, dengan kalimat tersebut ditempatkan di lokasi sembarang dalam dokumen sepanjang 128 ribu.

Sebuah studi baru-baru ini oleh para peneliti di University of Edinburgh, MIT-IBM Watson AI Lab, University of Washington, MIT, University of Melbourne, Ohio State University, dan UIUC meneliti teknik rekayasa data untuk meningkatkan durasi konteks model bahasa. Mereka terus melakukan pra-pelatihan pada kombinasi data yang sesuai untuk memastikan model bahasa lulus uji Jarum-dalam-Tumpukan pada panjang 128 ribu.

Pra-pelatihan berkelanjutan dengan perhatian penuh pada panjang konteks yang jauh lebih panjang (kami berlatih pada panjang konteks 64 ribu-80 ribu) mungkin tampak sangat mahal pada pandangan pertama, mengingat bahwa sebagian besar model yang ada dilatih pada panjang konteks kurang dari 4 ribu dan bahwa perhatian memiliki kompleksitas kuadratik.

Model dasar tim adalah LLaMA-2 7B dan 13B. Meskipun mereka mengubah dasar RoPE, mereka tidak mengubah arsitektur model secara besar-besaran. Sebagian besar perhatian mereka tertuju pada resep data atau bahan-bahan yang diperlukan untuk melatih model dengan benar agar berhasil dalam uji Jarum-dalam-Tumpukan dengan panjang konteks 128 ribu.

Para peneliti berpendapat bahwa, bahkan untuk model yang dilatih sebelumnya pada konteks 4 ribu yang jauh lebih pendek, kapasitas untuk menggunakan informasi pada posisi sembarang dalam panjang konteks yang diperpanjang (sebagian besar) sudah dipelajari selama pra-pelatihan. Bertentangan dengan hipotesis ini, penelitian saat ini menggunakan pra-pelatihan berkelanjutan pada kumpulan data besar (400B token) untuk menyediakan kemampuan pemodelan konteks panjang; pendekatan ini bisa sama mahalnya dengan memulai dari awal dengan pra-pelatihan.

Dalam studi ini, tim menunjukkan bahwa model 7B dapat “dibuka” untuk melakukan pengambilan yang akurat pada durasi konteks yang jauh lebih lama dibandingkan dengan pra-pelatihan asli dengan terus melakukan pra-pelatihan pada kumpulan kecil data konteks panjang, dalam contoh ini, 1-5B token. Selain itu, mereka membuktikan bahwa penelitian sebelumnya mengabaikan kebutuhan untuk meng-upsampling urutan panjang sambil mempertahankan campuran domain dari korpus pra-pelatihan, meskipun hal itu sangat penting untuk penskalaan konteks.

Upsampling domain dengan urutan panjang dalam campuran data penting untuk mewakili dependensi jarak jauh, seperti yang ditunjukkan oleh LongChat 32K dan YaRN Mistral 128K, menurut sebagian besar publikasi sebelumnya. Ini karena domain seperti buku menyediakan data urutan panjang yang diperlukan. Namun seperti yang disarankan dalam makalah mereka, jawaban yang jelas itu bukanlah yang terbaik karena menyebabkan kebingungan dan penurunan di area lain. Jadi, untuk peningkatan kinerja yang paling konsisten, sebaiknya gunakan campuran data yang mempertahankan rasio pencampuran domain yang sama dengan campuran pra-pelatihan dan kemudian melakukan upsampling urutan panjang dalam setiap domain.

Dibandingkan dengan dasar yang kuat seperti YaRN-Mistral 128K dan LongLoRA 100K, temuan menunjukkan bahwa ini adalah penyebab mendasar dari peningkatan kinerja tugas konteks panjang solusi kami sambil mempertahankan kinerja konteks pendek. Pada tantangan pengambilan, tim percaya bahwa pendekatan mereka menjembatani kesenjangan dengan model perintis seperti GPT-4 128K dan meletakkan dasar untuk penelitian di masa depan tentang penyesuaian instruksi konteks panjang.