AI Umum

Optimasi Model Bahasa Besar: Algoritma LISA

Pengantar

Model bahasa besar (LLM) seperti ChatGPT unggul dalam tugas-tugas seperti membuat dokumen, mengembangkan kode kompleks, menjawab pertanyaan, dan melakukan percakapan seperti manusia. Penyetelan halus LLM untuk domain tertentu menjadi strategi penting untuk meningkatkan kemampuannya. Namun, teknologi ini sangat mahal, sehingga sulit untuk membangun model dalam skala besar.

Metode Penyetelan Halus yang Efisien

Metode penyetelan halus yang efisien (PEFT) telah diusulkan untuk meminimalkan jumlah parameter yang dapat dilatih dan mengurangi biaya. Metode ini meliputi bobot adaptor, bobot prompt, dan LoRA.

LoRA dan Keterbatasannya

Di antara metode PEFT, LoRA adalah salah satu yang paling banyak diadopsi. Namun, LoRA masih memiliki beberapa keterbatasan dalam bersaing dengan penyetelan halus parameter penuh dalam semua skenario. Misalnya, ada kekhawatiran tentang efektivitas LoRA pada kumpulan data berskala besar karena sering gagal selama pra-pelatihan berkelanjutan.

LISA: Menjembatani Kesenjangan

Untuk mengatasi keterbatasan ini, peneliti dari Universitas Sains dan Teknologi Hong Kong dan Universitas Illinois menyelidiki statistik pelatihan LoRA di setiap lapisan untuk menjembatani kesenjangan antara LoRA dan penyetelan halus parameter penuh.

Mereka menemukan bahwa norma bobot lapisan LoRA sangat miring; sebagian besar bobot ditetapkan ke lapisan bawah atau atas selama pembaruan, dengan sangat sedikit bobot yang ditetapkan ke lapisan perhatian diri lainnya. Ini menunjukkan bahwa lapisan yang berbeda diberi bobot berbeda tergantung pada kepentingannya.

Algoritma LISA

Temuan penting ini mengilhami mereka untuk “mengambil sampel” beberapa lapisan sesuai dengan kepentingan relatifnya. Akibatnya, tim memperkenalkan algoritma Layerwise Importance Sampled Adam (LISA) yang memungkinkan pelatihan model bahasa berskala besar (≥ 65B parameter) dengan konsumsi memori yang sama atau lebih sedikit seperti LoRA dengan secara selektif memperbarui hanya lapisan LLM penting sambil membiarkan yang lain tidak tersentuh.

Hasil

Setelah disetel halus untuk tugas hilir, LISA mengungguli LoRA dan metode penyetelan halus parameter penuh tradisional. Kesenjangan kinerja yang signifikan ini menunjukkan bahwa LISA dapat menjadi alternatif yang menjanjikan untuk LoRA, menunjukkan keunggulannya di bidang pelatihan model bahasa berskala besar.

Penelitian ini menunjukkan bahwa LISA meningkatkan karakteristik konvergensi dan melampaui LoRA sebesar 8-36% di MT-Bench, menjadikannya pilihan yang menarik untuk tugas penyetelan halus untuk LLM saat ini. Selain itu, kinerja LISA tidak terbatas pada tugas atau ukuran model tertentu. Ini secara konsisten memberikan hasil yang lebih baik di berbagai aktivitas, termasuk mengikuti instruksi, tanya jawab medis, dan masalah matematika untuk model dengan ukuran mulai dari 7 B hingga 70 B.

Kekurangan dan Pekerjaan Masa Depan

Tim menyoroti bahwa, mirip dengan LoRA, kelemahan utama LISA adalah konsumsi memori yang disebabkan oleh pengoptimalan lintasan maju, yang masih mengharuskan model ditampilkan dalam memori. Di masa mendatang, mereka ingin melakukan uji coba tambahan untuk mengonfirmasi kinerja QLoRA, yang akan membantu mereka mengkompensasi kekurangan ini.