AI Umum

PERL: Teknik Pembelajaran Penguatan Efisien Parameter untuk Penyelarasan Model Bahasa

Pendahuluan

Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) meningkatkan keselarasan Model Bahasa Besar (LLM) yang telah dilatih sebelumnya dengan nilai-nilai manusia, sehingga meningkatkan penerapan dan keandalannya. Namun, menyelaraskan LLM melalui RLHF menghadapi rintangan yang signifikan, terutama karena intensitas komputasi dan tuntutan sumber daya dari proses tersebut. Melatih LLM dengan RLHF adalah tugas yang kompleks dan intensif sumber daya yang membatasi adopsi secara luas.

Teknik yang Ada

Berbagai teknik seperti RLHF, RLAIF, dan LoRA telah dikembangkan untuk mengatasi keterbatasan yang ada. RLHF bekerja dengan menyesuaikan model hadiah pada keluaran yang disukai dan melatih kebijakan menggunakan algoritma pembelajaran penguatan seperti PPO. Memberi label contoh untuk melatih model hadiah bisa jadi mahal, sehingga beberapa karya telah mengganti umpan balik manusia dengan umpan balik AI. Metode Parameter Efficient Fine-Tuning (PEFT) mengurangi jumlah parameter yang dapat dilatih di PLM sambil mempertahankan kinerja. LoRA, sebuah contoh metode PEFT, memfaktorkan pembaruan bobot menjadi matriks peringkat rendah yang dapat dilatih, sehingga memungkinkan pelatihan hanya sebagian kecil dari total parameter.

PERL: Pembelajaran Penguatan Efisien Parameter

Tim peneliti Google memperkenalkan metodologi revolusioner, Parameter-Efficient Reinforcement Learning (PERL). Pendekatan inovatif ini memanfaatkan LoRA untuk menyempurnakan model secara lebih efisien, mempertahankan kinerja metode RLHF tradisional sekaligus secara signifikan mengurangi persyaratan komputasi dan memori. PERL memungkinkan pelatihan selektif dari adaptor ini sambil mempertahankan model inti, secara drastis mengurangi jejak memori dan beban komputasi yang diperlukan untuk pelatihan tanpa mengorbankan kinerja model.

Hasil

PERL merevolusi pelatihan model RLHF dengan menerapkan LoRA untuk meningkatkan efisiensi parameter pada berbagai kumpulan data. Ini memanfaatkan data yang beragam, termasuk ringkasan teks dari Reddit TL;DR dan BOLT English SMS/Chat, pemodelan preferensi respons yang tidak berbahaya, metrik kebermanfaatan dari Stanford Human Preferences Dataset, dan tugas Otomasi UI yang berasal dari demonstrasi manusia. PERL menggunakan kumpulan data Taskmaster crowdsourced, dengan fokus pada interaksi percakapan dalam skenario pemesanan kopi dan pemberian tiket, untuk menyempurnakan respons model.

Penelitian ini mengungkapkan efisiensi PERL dalam menyelaraskan dengan hasil RLHF konvensional, secara signifikan mengurangi penggunaan memori sekitar 50% dan mempercepat pelatihan Model Hadiah hingga 90%. Model yang ditingkatkan LoRA menyamai akurasi rekan yang terlatih penuh dengan setengah dari penggunaan HBM puncak dan pelatihan 40% lebih cepat. Secara kualitatif, PERL mempertahankan kinerja tinggi RLHF dengan tuntutan komputasi yang berkurang, menawarkan jalan yang menjanjikan untuk menggunakan model ansambel seperti Mixture-of-LoRA untuk generalisasi lintas domain yang kuat dan menggunakan adaptor dengan rata-rata bobot untuk menurunkan risiko peretasan hadiah dengan biaya komputasi yang lebih rendah.

Kesimpulan

Metode PERL Google menandai lompatan signifikan dalam menyelaraskan AI dengan nilai dan preferensi manusia. Dengan memitigasi tantangan komputasi yang terkait dengan RLHF, PERL meningkatkan efisiensi dan penerapan LLM dan menetapkan tolok ukur baru untuk penelitian masa depan dalam penyelarasan AI. Inovasi PERL adalah ilustrasi nyata tentang bagaimana metode efisien parameter dapat merevolusi lanskap kecerdasan buatan, membuatnya lebih mudah diakses, efisien, dan selaras dengan nilai-nilai manusia.