AI Umum

Memproduksi Ulang Pekerjaan RLHF OpenAI: Implementasi dan Skala yang Dieksplorasi

Pendahuluan

Model bahasa besar (LLM) yang telah dilatih sebelumnya telah mengalami perkembangan pesat dalam beberapa tahun terakhir. LLM ini dilatih untuk memprediksi token berikutnya berdasarkan token sebelumnya dan memberikan perintah yang sesuai. Mereka dapat menyelesaikan berbagai tugas pemrosesan bahasa alami (NLP). Namun, tujuan prediksi token berikutnya menyimpang dari tujuan mendasar “menghasilkan konten yang disukai manusia”.

Reinforcement Learning from Human Feedback (RLHF)

Untuk mengatasi kesenjangan ini, Reinforcement Learning from Human Feedback (RLHF) diperkenalkan sebagai saluran untuk mengumpulkan preferensi manusia berpasangan, melatih model hadiah (RM) untuk memodelkan preferensi ini, dan menggunakan Reinforcement Learning (RL) untuk membuat model yang menghasilkan konten yang disukai manusia.

Reproduksi RLHF OpenAI

Mereproduksi saluran RLHF OpenAI dalam komunitas sumber terbuka terbukti menantang karena beberapa alasan:

  • RL dan RLHF memiliki banyak detail implementasi halus yang dapat berdampak signifikan pada stabilitas pelatihan.
  • Model sulit dievaluasi untuk tugas-tugas berikut: misalnya, menilai kualitas 800 baris cuplikan kode yang dihasilkan untuk tugas pengkodean.
  • Mereka membutuhkan waktu lama untuk dilatih dan diulang.

Pendekatan Mila dan Fuxi AI

Peneliti Hugging Face, Mila, dan Fuxi AI telah melakukan pendekatan unik, menyajikan reproduksi perilaku penskalaan Reinforcement Learning from Human Feedback (RLHF) yang sangat presisi yang dilaporkan dalam karya ringkasan TL;DR OpenAI. Mereka dengan cermat membuat saluran RLHF, dengan fokus pada lebih dari 20 detail implementasi utama.

Detail Implementasi

  • Mengadopsi laju pembelajaran terpadu untuk pelatihan SFT, RM, dan PPO untuk meningkatkan reproduktifitas.
  • Menggunakan implementasi pustaka transformer dari model Pythia bersama dengan deepspeed’s ZeRO Stage 2 untuk membantu menyesuaikan model ke dalam memori GPU; untuk pelatihan PPO 6,9B, mereka juga mentransfer kebijakan referensi dan model hadiah ke CPU.
  • Lapisan putus diaktifkan selama pelatihan. Ini penting untuk pelatihan PPO, terutama karena dengan putus diaktifkan, probabilitas log token tidak akan dapat direproduksi, sehingga menghitung penalti KL tidak dapat diandalkan sekaligus menyebabkan rasio PPO tidak menjadi 1 selama zaman pertama, menyebabkan masalah optimasi PPO. Untuk konsistensi, mereka juga menonaktifkan putus untuk pelatihan SFT dan RM.

Hasil

  • Implementasi PPO mengoptimalkan tujuan RLHF, yang mengarah pada peningkatan yang signifikan dalam skor total.
  • Model 6,9B terbaik mereka lebih disukai oleh GPT hampir 80% dari waktu, menunjukkan keunggulan praktisnya.
  • Untuk model berukuran 1B mereka, konsistensi preferensi rata-rata dalam beberapa eksperimen acak mendekati 0,4, menunjukkan bahwa model 1B telah menangkap serangkaian preferensi yang berbeda, sebuah temuan dengan implikasi penting.
  • Terbukti bahwa model PPO mengungguli model SFT di semua panjang ringkasan, yang semakin memperkuat relevansi praktis dari penelitian ini.

Kesimpulan

Peneliti Mila dan Fuxi AI telah berhasil mereproduksi perilaku penskalaan RLHF yang dilaporkan dalam karya ringkasan TL;DR OpenAI dengan presisi tinggi. Model Pythia yang dilatih RLHF mereka telah menunjukkan peningkatan yang signifikan dalam kualitas respons yang berskala dengan ukuran model. Khususnya, model 2,8B dan 6,9B mereka telah mengungguli pos pemeriksaan 1,3B yang dirilis OpenAI, menggarisbawahi pentingnya ukuran model dalam mencapai hasil yang unggul.