AI Umum

Kerangka Kerja Pembelajaran Mesin yang Memungkinkan Pengguna untuk Menyesuaikan Fungsi Hadiah dan Memungkinkan Penyelarasan Waktu Dekoding LLM

Tantangan dalam Penyelarasan LLM dengan Nilai Manusia

Kemajuan model bahasa besar (LLM) menghadirkan tantangan penting dalam memastikan bahwa keluarannya selaras dengan standar dan niat etika manusia. Meskipun canggih, model-model ini dapat menghasilkan konten yang secara teknis akurat tetapi mungkin tidak sejalan dengan harapan pengguna tertentu atau norma-norma sosial. Ketidakselarasan ini menyoroti perlunya mekanisme yang efektif untuk memandu keluaran LLM ke arah tujuan etika dan praktis yang diinginkan, yang merupakan hambatan signifikan dalam menyelaraskan konten yang dihasilkan mesin dengan nilai dan niat manusia.

Pendekatan Tradisional dan Keterbatasannya

Metode saat ini untuk mengatasi tantangan penyelarasan ini terutama berfokus pada modifikasi proses pelatihan model-model ini, dengan menggunakan teknik-teknik seperti Pembelajaran Penguatan dengan Umpan Balik Manusia (RLHF). Namun, pendekatan ini terbatas oleh ketergantungannya pada fungsi hadiah statis dan telah ditentukan sebelumnya serta ketidakmampuannya untuk beradaptasi dengan preferensi manusia yang bernuansa atau berkembang.

DeAL: Kerangka Kerja Penyelarasan yang Fleksibel dan Dinamis

Para peneliti telah memperkenalkan kerangka kerja baru, DeAL (Decoding-time Alignment for Large Language Models), yang menata ulang pendekatan penyelarasan model dengan memungkinkan kustomisasi fungsi hadiah pada tahap decoding daripada selama pelatihan. Inovasi ini menyediakan metode yang lebih fleksibel dan dinamis untuk menyelaraskan keluaran model dengan tujuan pengguna tertentu.

Proses Penyelarasan DeAL

Navigasi pencarian ini melibatkan penggunaan algoritma pencarian A* yang didukung oleh LLM auto-regresif. Sistem ini disetel dengan baik melalui parameter hiper dan fungsi heuristik yang dirancang untuk memperkirakan hadiah penyelarasan, mengoptimalkan hasil pembuatan. Saat pencarian berlangsung, agen secara dinamis menyesuaikan keadaan awal, mengubah prompt masukan untuk memperbaiki hasil pembuatan lebih lanjut.

Langkah penting dalam proses ini adalah pemilihan tindakan, di mana sekelompok kecil tindakan kandidat dipilih berdasarkan kemungkinan mereka, sebagaimana ditentukan oleh LLM. Pendekatan ini diperkuat oleh metrik penyelarasan yang berfungsi sebagai heuristik untuk menilai potensi setiap tindakan, dengan mekanisme lookahead yang menawarkan wawasan berharga tentang jalur yang paling menjanjikan. Keputusan untuk tindakan selanjutnya bergantung pada fungsi penilaian yang mengintegrasikan probabilitas tindakan dengan skor heuristik, memungkinkan pilihan antara metode deterministik dan stokastik.

Kemampuan dan Manfaat DeAL

Kerangka kerja ini fleksibel untuk mengakomodasi kendala yang dapat diverifikasi secara terprogram dan penduga parametrik sebagai heuristik, mengatasi kesenjangan yang ditinggalkan oleh karya-karya sebelumnya dalam mempertimbangkan tujuan penyelarasan parametrik untuk LLM. Eksperimen menunjukkan kemampuan DeAL untuk meningkatkan penyelarasan dengan tujuan di berbagai skenario tanpa mengorbankan kinerja tugas.

Dari tugas pembuatan yang dibatasi kata kunci yang menunjukkan peningkatan cakupan kata kunci dalam kumpulan data CommonGen hingga tugas peringkasan yang dibatasi panjang dalam kumpulan data XSUM yang menunjukkan kepuasan panjang yang lebih baik, DeAL terbukti unggul. Ia unggul dalam skenario yang membutuhkan tujuan penyelarasan abstrak seperti tidak berbahaya dan bermanfaat, menawarkan solusi yang fleksibel dan efektif, terutama dalam situasi keamanan.

Kemampuan DeAL untuk dikalibrasi untuk tingkat penyelarasan tertentu semakin menggarisbawahi kemampuan beradaptasi dan efektivitasnya dibandingkan dengan metode tradisional.

Kesimpulan: Kemajuan dalam Pengembangan AI yang Etis

Kesimpulannya, DeAL mewakili kemajuan luar biasa dalam pencarian model AI yang lebih selaras dan sadar etika. Dengan mengintegrasikan dengan strategi penyelarasan saat ini seperti prompt sistem dan penyetelan halus, DeAL meningkatkan kualitas penyelarasan. Ini muncul sebagai solusi penting dalam konteks keamanan, mengatasi keterbatasan metode tradisional yang berjuang untuk menggabungkan beberapa hadiah khusus dan bias subjektif pengembang. Bukti eksperimental mendukung efektivitas DeAL dalam menyempurnakan penyelarasan, mengatasi kesenjangan residual LLM, dan mengelola pertukaran yang bernuansa, menandai kemajuan signifikan dalam pengembangan AI yang etis.