AI Umum

Bagaimana Eksplorasi Efisien Meningkatkan Efektivitas Umpan Balik Manusia dalam Menyempurnakan Model Bahasa Besar

Kecerdasan buatan telah mengalami kemajuan luar biasa dengan pengembangan model bahasa besar (LLM). Berkat teknik-teknik seperti pembelajaran penguatan dari umpan balik manusia (RLHF), mereka telah secara signifikan meningkatkan kinerja dalam berbagai tugas. Namun, tantangannya terletak pada sintesis konten baru hanya berdasarkan umpan balik manusia.

Tantangan dalam Meningkatkan LLM

Salah satu tantangan inti dalam memajukan LLM adalah mengoptimalkan proses pembelajaran mereka dari umpan balik manusia. Umpan balik ini diperoleh melalui proses di mana model disajikan dengan perintah dan menghasilkan tanggapan, dengan penilai manusia menunjukkan preferensi mereka. Tujuannya adalah untuk menyempurnakan tanggapan model agar lebih selaras dengan preferensi manusia. Namun, metode ini membutuhkan banyak interaksi, sehingga menjadi kendala bagi peningkatan model yang cepat.

Metode Eksplorasi Saat Ini

Metodologi saat ini untuk melatih LLM melibatkan eksplorasi pasif, di mana model menghasilkan tanggapan berdasarkan perintah yang telah ditentukan sebelumnya tanpa secara aktif berusaha mengoptimalkan pembelajaran dari umpan balik. Salah satu pendekatan tersebut adalah dengan menggunakan pengambilan sampel Thompson, di mana kueri dihasilkan berdasarkan estimasi ketidakpastian yang diwakili oleh jaringan saraf epistemik (ENN). Pilihan skema eksplorasi sangat penting, dan pengambilan sampel Thompson ganda terbukti efektif dalam menghasilkan kueri berkinerja tinggi. Yang lainnya termasuk Eksplorasi Boltzmann dan Infomax.

Keterbatasan Metode Saat Ini

Meskipun metode ini telah berperan penting dalam tahap awal pengembangan LLM, metode ini harus dioptimalkan untuk efisiensi, yang sering kali memerlukan sejumlah interaksi manusia yang tidak praktis untuk mencapai peningkatan yang nyata.

Pendekatan Baru untuk Eksplorasi Aktif

Para peneliti di Google Deepmind dan Universitas Stanford telah memperkenalkan pendekatan baru untuk eksplorasi aktif, memanfaatkan pengambilan sampel Thompson ganda dan ENN untuk pembuatan kueri. Metode ini memungkinkan model untuk secara aktif mencari umpan balik yang paling informatif untuk pembelajarannya, secara signifikan mengurangi jumlah kueri yang diperlukan untuk mencapai tingkat kinerja yang tinggi. ENN memberikan estimasi ketidakpastian yang memandu proses eksplorasi, memungkinkan model untuk membuat keputusan yang lebih tepat tentang kueri mana yang akan disajikan untuk umpan balik.

Hasil Eksperimen

Dalam pengaturan eksperimen, agen menghasilkan tanggapan terhadap 32 perintah, membentuk kueri yang dievaluasi oleh simulator preferensi. Umpan balik digunakan untuk menyempurnakan model penghargaan mereka di akhir setiap zaman. Agen menjelajahi ruang respons dengan memilih pasangan paling informatif dari kumpulan 100 kandidat, menggunakan arsitektur multi-layer perceptron (MLP) dengan dua lapisan tersembunyi masing-masing 128 unit atau ansambel 10 MLP untuk jaringan saraf epistemik (ENN).

Hasilnya menyoroti efektivitas pengambilan sampel Thompson ganda (TS) dibandingkan metode eksplorasi lainnya seperti eksplorasi Boltzmann dan infomax, terutama dalam memanfaatkan estimasi ketidakpastian untuk pemilihan kueri yang lebih baik. Sementara eksplorasi Boltzmann menunjukkan janji pada suhu yang lebih rendah, TS ganda secara konsisten mengungguli yang lain dengan memanfaatkan estimasi ketidakpastian dari model penghargaan ENN dengan lebih baik.

Kesimpulan

Penelitian ini menunjukkan potensi eksplorasi yang efisien untuk mengatasi keterbatasan metode pelatihan tradisional. Tim telah membuka jalan baru untuk peningkatan model yang cepat dan efektif dengan memanfaatkan algoritma eksplorasi lanjutan dan estimasi ketidakpastian. Pendekatan ini menjanjikan untuk mempercepat inovasi dalam LLM dan menyoroti pentingnya mengoptimalkan proses pembelajaran untuk kemajuan kecerdasan buatan yang lebih luas.