AI Umum

Mitigasi Peretasan dalam Pembelajaran Penguatan dari Umpan Balik Manusia dengan ODIN

Pendahuluan

Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) adalah metode yang semakin penting untuk memanfaatkan potensi Model Bahasa Besar (LLM) yang telah dilatih sebelumnya untuk menghasilkan tanggapan yang lebih bermanfaat, jujur, dan sejalan dengan preferensi manusia. Dalam RLHF, model bahasa dilatih untuk menghasilkan tanggapan yang memaksimalkan imbalan yang dipelajari melalui pembelajaran penguatan, setelah itu model imbalan dilatih berdasarkan preferensi manusia untuk perintah tertentu. Karena pengumpulan peringkat manusia biasanya tidak serumit pengumpulan demo untuk penyetelan halus yang diawasi, pendekatan ini menyederhanakan proses pengumpulan data.

Masalah Peretasan Imbalan dalam RLHF

Namun, peretasan imbalan adalah masalah yang halus dengan RLHF, di mana kebijakan mendapatkan imbalan yang besar tanpa memenuhi tujuan yang sebenarnya. Hal ini terjadi sebagai akibat dari generalisasi Out-Of-Distribution (OOD) yang terbatas dari model imbalan dan potensi ketidaksempurnaan dalam mewakili preferensi manusia. Menjadi LLM yang kuat, model bahasa dapat memberikan contoh OOD untuk memanfaatkan kelemahan dalam model imbalan.

Solusi yang Diusulkan: Teknik Pemisahan Imbalan ODIN

Untuk mengatasi masalah ini, penelitian terbaru dari NVIDIA dan University of Maryland bertujuan untuk memitigasi peretasan imbalan dengan memeriksa bagaimana algoritma RL dan model insentif memengaruhi verbositas dan kinerja. Tim telah menyajikan teknik evaluasi untuk membandingkan berbagai pengaturan pelatihan dan memperhitungkan bias dalam evaluasi berbasis model. Teknik ini telah memberikan pengetahuan yang komprehensif tentang berbagai durasi respons dengan mengevaluasi kinerja pada Pareto front skor evaluasi vs. panjang.

Proses ini dimaksudkan untuk menganalisis trade-off antara skor penilaian LLM dan durasi respons, yang memungkinkan perbandingan sistematis dari pengaturan pelatihan yang berbeda. Dengan memvariasikan hiperparameter pelatihan, dapat dievaluasi bagaimana modifikasi ini memengaruhi rasio verbositas terhadap kualitas jawaban. Studi ini melihat hiperparameter dan teknik RL, seperti pemotongan imbalan dan penalti panjang, untuk mengurangi peretasan imbalan pada panjang. Tujuan utamanya adalah untuk menghilangkan sinyal panjang palsu dari imbalan, meskipun berbagai prosedur penyetelan dapat menghasilkan hasil yang lebih baik.

Untuk mencapai hal ini, tim telah menyarankan model imbalan dua kepala yang memisahkan representasi untuk panjang dari preferensi yang sebenarnya. Kepala panjang dihapus selama RL.

Teknik pemisahan imbalan yang disarankan, ODIN, telah digunakan dengan bantuan yang mana, bahkan dengan anggaran penyetelan yang lebih mahal, kebijakan tersebut mampu mencapai Pareto front yang lebih besar daripada hasil sebelumnya. Proximal Policy Optimisation (PPO) dan ReMax sama-sama mendapat manfaat dari efektivitas ODIN, yang menunjukkan bahwa ODIN dapat digunakan untuk meningkatkan metode penyetelan RL lainnya dan mengurangi peretasan panjang.

Kesimpulan

Sebagai kesimpulan, hasil eksperimen metode ini telah menunjukkan penurunan yang patut dicatat dalam hubungan model imbalan dengan durasi respons. Strategi yang diturunkan berkinerja jauh lebih baik ketika kualitas informasi diprioritaskan daripada verbositas. Metode ini berhasil mengurangi masalah peretasan imbalan terkait panjang respons, meningkatkan keandalan dan kegunaan LLM yang dilatih menggunakan paradigma RLHF.