AI Umum

Peningkatan Model Bahasa OpenAI dengan Pelatihan Isi-di-Tengah: Jalan Menuju Kemampuan Isi yang Canggih

Model bahasa berbasis transformer, seperti BERT dan T5, mahir dalam berbagai tugas tetapi kesulitan dengan pengisian—menghasilkan teks di lokasi tertentu sambil mempertimbangkan konteks sebelumnya dan sesudahnya. Meskipun model encoder-decoder dapat menangani sufiks, data pelatihan mereka biasanya mencakup wilayah isi yang lebih pendek daripada yang praktis.

Namun, model berbasis decoder kausal, seperti GPT-3 dan penerusnya, unggul dalam pembuatan teks terbuka dan pembelajaran dalam konteks tanpa penyesuaian tugas khusus. Meskipun memiliki keterbatasan dalam pengisian, model-model ini banyak digunakan dalam aplikasi seperti bantuan pengkodean untuk tugas-tugas seperti pembuatan docstring atau pernyataan impor karena kesederhanaan dan efisiensinya.

Peneliti OpenAI menunjukkan bahwa model bahasa autoregresif dapat secara efektif mempelajari cara mengisi teks dengan menggeser sebagian dari tengah ke akhir dokumen. Proses ini, yang dikenal sebagai “isi-di-tengah” (FIM), tidak mengorbankan kemampuan generatif kiri-ke-kanan asli model. Melakukan evaluasi menyeluruh, mereka menganjurkan untuk melatih model bahasa masa depan dengan FIM sebagai pendekatan default, dengan alasan kegunaannya, kesederhanaannya, dan efisiensinya. Mereka menetapkan praktik terbaik untuk pelatihan model FIM melalui eksperimen pada berbagai hiperparameter.

Kemajuan ini mengatasi keterbatasan utama dalam pemodelan bahasa berskala besar, khususnya model berbasis decoder kausal, tanpa mengubah arsitekturnya.

Pengisian Teks

Pengisian teks sangat penting dalam model bahasa, di mana token bertopeng mewakili wilayah yang akan diisi. Sementara model awal seperti BERT bertopeng token secara acak, model selanjutnya seperti T5 dan BART menunjukkan peningkatan dengan masking bersebelahan. XLNet dan lainnya memungkinkan urutan pembuatan token yang fleksibel. Model seperti InCoder mengadopsi pemodelan autoregresif kiri-ke-kanan dengan wilayah isi dipindahkan ke akhir. Para peneliti fokus pada pengisian rentang tunggal untuk kepraktisan dan menekankan efisiensi komputasi. Pengisian dapat dilakukan melalui arsitektur seperti SpanBERT atau melalui pemformatan data. Pekerjaan mereka dan orang lain berkontribusi pada kemajuan pengisian, dengan sistem penting seperti code-davinci-002 yang menunjukkan kemampuan pengisian yang kuat.

Teknik Pengisian-di-Tengah

Studi ini menyebutkan teknik augmentasi data yang disebut FIM, di mana rentang teks dari tengah dokumen dipindahkan ke akhirnya. Ini menunjukkan bahwa melatih model bahasa autoregresif dengan FIM tidak mengorbankan kemampuan kiri-ke-kanan mereka, menetapkan properti FIM-gratis. Studi ini mengidentifikasi praktik terbaik untuk pelatihan FIM melalui eksperimen dan ablasi yang ekstensif. Ini juga menyoroti inefisiensi penyesuaian dengan FIM dibandingkan dengan prapelatihan. Tolok ukur pengisian baru juga disebutkan, dan pentingnya evaluasi pengambilan sampel atas kerugian uji dalam menilai model FIM ditekankan.

Evaluasi

Studi ini mengonfirmasi bahwa model FIM secara efektif mempelajari cara mengisi teks. FIM tingkat dokumen, di mana dokumen dibagi menjadi prefiks, tengah, dan sufiks, tingkat FIM efektif dapat menurun karena bagaimana dokumen dipotong untuk pelatihan. Jika sebagian besar dokumen lebih panjang dari ukuran konteks model, kecil kemungkinannya bahwa semua bagian dari satu dokumen akan muncul bersama dalam satu konteks, yang mengarah ke tingkat FIM efektif yang lebih rendah. Di sisi lain, FIM tingkat konteks menghindari masalah ini dengan menerapkan FIM setelah pemotongan, memastikan bahwa setiap konteks berisi contoh prefiks, tengah, dan sufiks yang lengkap. Akibatnya, FIM tingkat konteks sering kali mengungguli FIM tingkat dokumen karena tingkat FIM efektifnya yang lebih tinggi, memberikan contoh pelatihan yang lebih konsisten dan efektif untuk model.

Kesimpulan

Dalam studi ini, para peneliti menunjukkan bahwa model bahasa berbasis decoder kausal, yang dilatih pada kombinasi data yang ditransformasikan kiri-ke-kanan dan FIM, dapat secara efektif mengisi bagian dokumen yang hilang. Model FIM melampaui model tradisional dalam keserbagunaan, dan mereka mampu melakukan tugas-tugas seperti mengimpor modul dan menyelesaikan fungsi. Mereka memperkenalkan konsep FIM-gratis, menunjukkan bahwa model FIM mencapai kerugian uji yang sebanding dengan model kiri-ke-kanan sambil menunjukkan kerugian FIM yang lebih rendah. Mereka merekomendasikan FIM tingkat karakter dengan rentang acak untuk kinerja optimal, mengusulkan arah penelitian masa depan untuk meningkatkan kemampuan pengisian dan mengeksplorasi potensi pembelajaran bersama yang lebih luas dalam model bahasa.