AI Umum

C3PO: Pendekatan Pembelajaran Mesin Baru untuk Kustomisasi Model Bahasa Besar yang Peka terhadap Konteks

Latar Belakang

Model bahasa telah mengubah interaksi dan pemrosesan informasi dalam lanskap kecerdasan buatan yang terus berkembang. Namun, menyelaraskan model-model ini dengan umpan balik pengguna tertentu sambil menghindari generalisasi yang tidak diinginkan merupakan sebuah tantangan. Pendekatan tradisional sering kali perlu membedakan penerapan umpan balik, yang mengarah ke model yang memperluas aturan di luar konteks yang dimaksudkan. Masalah ini menyoroti perlunya metode lanjutan untuk memastikan model bahasa dapat beradaptasi secara tepat dengan preferensi pengguna tanpa mengorbankan kegunaannya dalam berbagai aplikasi.

Penelitian Sebelumnya

Karya-karya yang ada telah mengeksplorasi peningkatan bahasa atau sistem dialog melalui berbagai jenis umpan balik, termasuk hadiah, preferensi atau peringkat yang dipelajari atau heuristik, dan umpan balik bahasa alami. Umpan balik bahasa alami telah meningkatkan kinerja dalam tugas pembuatan kode, dialog, dan ringkasan. Beberapa penelitian berfokus pada pemanfaatan umpan balik bahasa alami untuk menyempurnakan perilaku model umum daripada meningkatkan keluaran model tunggal. Bidang penelitian terkait mencakup AI konstitusional, distilasi konteks, pengeditan model, dan debiasing LLM.

Metode C3PO

Para peneliti dari Universitas Cornell telah memperkenalkan metode baru, Kritik Kontekstual dengan Optimasi Preferensi Terkendala (C3PO), untuk menyempurnakan perilaku respons model. Metode C3PO secara strategis menyempurnakan model bahasa untuk menerapkan umpan balik yang relevan sambil menghindari generalisasi secara cermat. Hal ini dicapai dengan memanfaatkan Optimasi Preferensi Langsung (DPO) untuk data yang dianggap dalam cakupan dan kerugian Penyetelan Halus yang Diawasi (SFT) untuk data di luar cakupan dan cakupan dekat, memastikan kinerja model tetap kuat di berbagai konteks.

Pembuatan kumpulan data Dnear-scope dan Dout-of-scope, yang diisi dengan perintah dan pelengkapan dari model awal, menjaga integritas model untuk masukan yang tidak terkait dengan umpan balik. Dengan menggabungkan fungsi kerugian gabungan yang canggih, LC3PO, pendekatan ini tidak hanya mencakup umpan balik untuk perintah yang relevan tetapi juga secara aktif mencegah kinerja model memburuk pada perintah yang tidak relevan. Ini selanjutnya ditingkatkan dengan pembuatan data preferensi dua kebijakan sintetis C3PO, yang memungkinkan pembelajaran kebijakan optimal di bawah kerangka kerja model preferensi Bradley-Terry. Kebijakan optimal ini secara hati-hati menyeimbangkan kemampuan asli model dengan umpan balik baru, menghukum respons yang menyimpang dari masukan, sehingga menyempurnakan respons model secara tepat, selaras dengan umpan balik.

Evaluasi

Eksperimen secara ketat mengevaluasi kemampuan C3PO untuk menggabungkan umpan balik verbal tanpa menggeneralisasi secara berlebihan, membandingkannya dengan metode tradisional dan mengeksplorasi kemahirannya dalam mengasimilasi berbagai umpan balik. Memanfaatkan kumpulan data umpan balik sebanyak 100 entri, baik yang ditulis oleh penulis maupun yang dibuat oleh GPT-4, C3PO menunjukkan kinerja yang unggul dengan secara efektif mematuhi perintah dalam cakupan sambil meminimalkan generalisasi yang berlebihan, peningkatan yang signifikan dibandingkan metode In-Context dan SCD yang dimodifikasi. Mencampur parameter Penyesuaian Peringkat Rendah (LoRA) yang Dipelajari menggarisbawahi integrasi umpan balik C3PO yang efisien, didukung oleh formulasi kendala strategis yang mengungguli distilasi pengetahuan penuh.


Kesimpulan

Kesimpulannya, pengembangan C3PO menandai langkah maju yang signifikan menuju model bahasa yang lebih adaptif dan berpusat pada pengguna. Dengan mengatasi tantangan generalisasi yang berlebihan, metode ini membuka jalan bagi alat AI yang lebih personal dan efisien yang dirancang untuk memenuhi beragam kebutuhan pengguna tanpa mengorbankan penerapan yang lebih luas. Implikasi dari penelitian ini melampaui pencapaian teknis, menandai masa depan di mana AI dapat beradaptasi dengan mulus dengan preferensi individu, meningkatkan kegunaan dan aksesibilitasnya.