AI Umum

Peningkatan Penyelarasan Model Bahasa melalui Transformasi Imbalan dan Optimasi Multi-Objektif

Studi ini meneliti seberapa baik model bahasa besar (LLM) selaras dengan atribut yang diinginkan, seperti membantu, tidak berbahaya, akurasi faktual, dan kreativitas. Fokus utamanya adalah pada proses dua tahap yang melibatkan pembelajaran model imbalan dari preferensi manusia dan kemudian menyelaraskan model bahasa untuk memaksimalkan imbalan ini. Ini membahas dua masalah utama:

  • Meningkatkan penyelarasan dengan mempertimbangkan berbagai transformasi imbalan yang dipelajari.
  • Menggabungkan beberapa model imbalan secara efektif saat menyelaraskan model bahasa dengan berbagai atribut.

Namun, tantangannya terletak pada perlunya tujuan yang didefinisikan secara tepat untuk penyelarasan, yang mengarah pada eksplorasi berbagai metode transformasi dan agregasi tanpa prinsip panduan yang jelas.

Metode

Para peneliti dari University of Chicago, Google Research, Google DeepMind, dan Stanford University menyebutkan masalah menyelaraskan model bahasa dengan preferensi manusia dengan mempelajari model imbalan dari data preferensi dan memperbarui model bahasa, mengusulkan teknik transformasi untuk imbalan dan kombinasi beberapa model imbalan. Transformasi yang diturunkan menekankan peningkatan keluaran yang berkinerja buruk dan memungkinkan agregasi imbalan yang berprinsip, yang mengarah pada peningkatan substansial dalam menyelaraskan model bahasa agar bermanfaat dan tidak berbahaya.

Berbagai teknik mengatasi peretasan imbalan dalam Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF), termasuk rata-rata model imbalan, optimasi terbatas, dan pengumpulan preferensi manusia secara iteratif. Dengan mengusulkan metode pelengkap, studi ini mengeksplorasi penyelarasan model bahasa dengan beberapa tujuan, dengan pendekatan umum yang melibatkan kombinasi penjumlahan tertimbang dari model imbalan individu.

Teknik transformasi yang disajikan berlaku untuk strategi penyelarasan yang memaksimalkan utilitas yang diharapkan. Sementara beberapa metode penyelarasan menggunakan label preferensi secara langsung, peringkat dihitung dari agregat saat menyelaraskan dengan beberapa properti. Ini membahas kebutuhan akan fungsi utilitas terbatas.

Penelitian ini menyebutkan teknik transformasi untuk menyelaraskan model bahasa dengan preferensi manusia dengan mempelajari model imbalan dari data preferensi dan memperbarui model bahasa. Para peneliti menggunakan interpretasi probabilistik dari prosedur penyelarasan untuk mengidentifikasi pilihan alami untuk transformasi imbalan yang dipelajari dari model preferensi Bradley-Terry. Transformasi yang diturunkan menekankan peningkatan keluaran yang berkinerja buruk dan mengurangi underfitting dan peretasan imbalan.

Studi ini juga mengeksplorasi kombinasi beberapa model imbalan dan memungkinkan agregasi imbalan yang berprinsip dengan menghubungkan penjumlahan dengan konjungsi logis. Eksperimen dilakukan, menyelaraskan model bahasa agar bermanfaat dan tidak berbahaya menggunakan RLHF dan menunjukkan peningkatan substansial dibandingkan pendekatan dasar.

Hasil

Dibandingkan dengan pendekatan dasar, pendekatan ini menunjukkan peningkatan substansial dalam menyelaraskan model bahasa agar bermanfaat dan tidak berbahaya menggunakan RLHF. Teknik transformasi untuk imbalan dan menggabungkan beberapa model imbalan menunjukkan hasil yang menjanjikan dalam menyelaraskan model bahasa dengan preferensi manusia. Menjumlahkan imbalan yang ditransformasikan lebih sesuai dengan AND logis, yang mengarah pada distribusi imbalan yang lebih seimbang dan mengungguli metode imbalan dasar. Model yang disejajarkan dengan transformasi mengungguli dasar dalam kasus terbaik-dari-k dan KL rendah, sementara dalam kasus KL tinggi, imbalan yang ditransformasikan secara dramatis mengungguli dasar imbalan mentah.

Eksperimen yang dilakukan dalam penelitian ini memberikan bukti efektivitas metode yang disebutkan dalam meningkatkan penyelarasan model bahasa dengan preferensi manusia.

Kesimpulan

Penelitian ini mengusulkan teknik untuk menyelaraskan model bahasa dengan preferensi manusia, dengan fokus pada peningkatan keluaran yang berkinerja buruk dan memungkinkan agregasi imbalan yang berprinsip. Transformasi untuk imbalan yang dipelajari dari model preferensi Bradley-Terry memiliki dua sifat penting: meningkatkan keluaran yang berkinerja buruk dan memungkinkan agregasi imbalan yang berprinsip. Eksperimen yang dilakukan menggunakan RLHF menunjukkan peningkatan substansial dibandingkan pendekatan dasar, membuktikan efektivitas metode yang diusulkan. Ini menekankan pentingnya mempertimbangkan baik membantu maupun tidak berbahaya dalam menyelaraskan model bahasa, dan metode yang dikembangkan memberikan pendekatan yang menjanjikan untuk mencapai penyelarasan ini dengan menggabungkan beberapa model imbalan dan menggunakan konjungsi logis dalam agregasi imbalan.