AI Umum

Judul: Menyempurnakan Model Pembelajaran Mesin secara Lebih Efisien: Penelitian Kecerdasan Buatan dari Cohere for AI Mengungkap Bagaimana REINFORCE Mengalahkan PPO dalam Pembelajaran Penguatan dari Umpan Balik Manusia

Subjudul:

  • Tantangan dalam Menyelaraskan Model Bahasa Besar dengan Preferensi Manusia
  • Pendekatan Baru: Meninjau Kembali Dasar-dasar Pembelajaran Penguatan
  • Hasil: REINFORCE dan RLOO Mengungguli Metode Tradisional
  • Implikasi: Kesederhanaan sebagai Kunci Keberhasilan

Isi:

Penyelarasan Model Bahasa Besar (LLM) dengan preferensi manusia telah menjadi bidang penelitian yang penting. Seiring dengan meningkatnya kompleksitas dan kemampuan model-model ini, memastikan tindakan dan keluaran mereka selaras dengan nilai-nilai dan niat manusia menjadi sangat penting. Jalur konvensional untuk mencapai penyelarasan ini melibatkan teknik pembelajaran penguatan yang canggih, dengan Proximal Policy Optimization (PPO) sebagai metode terdepan. Meskipun efektif, metode ini memiliki tantangan tersendiri, termasuk tuntutan komputasi yang tinggi dan kebutuhan akan penyesuaian hiperparameter yang cermat. Tantangan-tantangan ini menimbulkan pertanyaan: Apakah ada cara yang lebih efisien namun sama efektifnya untuk mencapai tujuan yang sama?

Sebuah tim peneliti dari Cohere For AI dan Cohere melakukan eksplorasi untuk menjawab pertanyaan ini, mengalihkan fokus mereka ke pendekatan yang tidak terlalu intensif secara komputasi namun tidak mengorbankan kinerja. Mereka meninjau kembali dasar-dasar pembelajaran penguatan dalam konteks umpan balik manusia, khususnya mengevaluasi efisiensi varian optimasi gaya REINFORCE terhadap PPO tradisional dan metode “RL-free” terkini seperti DPO dan RAFT.

Investigasi mereka mengungkapkan bahwa metode yang lebih sederhana dapat menyamai atau bahkan melampaui kinerja metode yang lebih kompleks dalam menyelaraskan LLM dengan preferensi manusia. Metodologi yang digunakan membedah komponen RL dari RLHF, menghilangkan kompleksitas yang terkait dengan PPO untuk menyoroti keefektifan pendekatan yang lebih sederhana dan lugas. Melalui analisis mereka, mereka mengidentifikasi bahwa prinsip-prinsip inti yang mendorong pengembangan PPO, terutama fokusnya pada meminimalkan varians dan memaksimalkan stabilitas dalam pembaruan, mungkin tidak sepenting yang diperkirakan sebelumnya dalam konteks RLHF.

Analisis empiris mereka, yang memanfaatkan kumpulan data dari Google Vizier, menunjukkan peningkatan kinerja yang signifikan ketika menggunakan REINFORCE dan ekstensi multi-sampelnya, REINFORCE Leave-One-Out (RLOO), dibandingkan dengan metode tradisional. Temuan mereka menunjukkan peningkatan kinerja lebih dari 20%, menandai lompatan maju yang signifikan dalam efisiensi dan efektivitas penyelarasan LLM dengan preferensi manusia.

Penelitian ini menantang norma yang berlaku mengenai perlunya metode pembelajaran penguatan yang kompleks untuk penyelarasan LLM dan membuka pintu bagi alternatif yang lebih mudah diakses dan berpotensi lebih efektif. Wawasan utama dari penelitian ini menggarisbawahi potensi varian pembelajaran penguatan yang lebih sederhana dalam mencapai penyelarasan LLM berkualitas tinggi dengan biaya komputasi yang lebih rendah.

Kesimpulan:

Penelitian Cohere menunjukkan beberapa wawasan utama, termasuk:


  • Menyederhanakan komponen RL dari RLHF dapat mengarah pada peningkatan penyelarasan LLM dengan preferensi manusia tanpa mengorbankan efisiensi komputasi.
  • Metode tradisional yang kompleks seperti PPO mungkin tidak diperlukan dalam pengaturan RLHF, membuka jalan bagi alternatif yang lebih sederhana dan lebih efisien.
  • REINFORCE dan ekstensi multi-sampelnya, RLOO, muncul sebagai kandidat yang menjanjikan, menawarkan perpaduan kinerja dan efisiensi komputasi yang menantang status quo.

Pekerjaan ini menandai perubahan penting dalam pendekatan penyelarasan LLM, menunjukkan bahwa kesederhanaan, bukan kompleksitas, mungkin menjadi kunci penyelarasan kecerdasan buatan yang lebih efektif dan efisien dengan nilai-nilai dan preferensi manusia.