AI Umum

Strategi Penyempurnaan Lanjutan dalam Model AI: Mengungkap Kekuatan Model Imbalan Berbasis Hasil dan Proses

Pendahuluan

Penyempurnaan penalaran model bahasa besar (LLM) menjadi langkah penting dalam penelitian kecerdasan buatan. Tim dari FAIR di Meta, bersama kolaborator dari Georgia Institute of Technology dan StabilityAI, telah memulai perjalanan untuk meningkatkan kemampuan LLM dalam menyempurnakan proses penalaran mereka pada tugas-tugas menantang seperti matematika, sains, dan pengkodean tanpa bergantung pada input eksternal.

Model Imbalan Berbasis Hasil (ORM)

LLM, meskipun canggih, sering kali perlu ditingkatkan dalam mengidentifikasi secara tepat kapan dan bagaimana penalaran mereka perlu disempurnakan. Kesenjangan ini mengarah pada pengembangan ORM, alat yang dirancang untuk memprediksi akurasi jawaban akhir model, yang mengisyaratkan kapan penyesuaian diperlukan.

Kelemahan ORM

Namun, tim menemukan keterbatasan ORM: mereka terlalu berhati-hati, mendorong penyempurnaan yang tidak perlu bahkan ketika langkah-langkah penalaran model berada di jalur yang benar. Ketidak efisienan ini mendorong penyelidikan lebih dalam ke dalam strategi penyempurnaan yang lebih terarah.

Model Imbalan Berbasis Hasil Bertahap (SORM)

SORM adalah usulan baru dari tim peneliti. Tidak seperti pendahulunya, SORM mahir dalam meneliti kebenaran setiap langkah penalaran, memanfaatkan data sintetis untuk pelatihan. Presisi ini memungkinkan pendekatan penyempurnaan yang lebih bernuansa, membedakan secara akurat antara langkah-langkah penalaran yang valid dan salah, sehingga menyederhanakan proses penyempurnaan.

Model Penyempurnaan Ganda

Metodologi yang digunakan oleh tim melibatkan model penyempurnaan ganda: global dan lokal. Model global menilai pertanyaan dan solusi awal untuk mengusulkan jawaban yang disempurnakan, sementara model lokal berfokus pada kesalahan spesifik yang disorot oleh kritik. Percabangan ini memungkinkan pendekatan koreksi yang lebih rinci, mengatasi ketidakakuratan penalaran yang luas dan spesifik.

Data Pelatihan Sintetis

Data pelatihan untuk kedua model dihasilkan secara sintetis, memastikan dasar yang kuat untuk proses pembelajaran sistem.

Hasil

Puncak dari penelitian ini adalah peningkatan yang mencolok dalam akurasi penalaran LLM. Tim mendokumentasikan peningkatan yang luar biasa dalam metrik kinerja melalui pengujian yang ketat, terutama terlihat dalam penerapan metode mereka pada model LLaMA-2 13B. Pada soal matematika yang menantang yang dikenal sebagai GSM8K, akurasi melonjak dari 53% menjadi 65% yang mengesankan ketika model diterapkan dalam strategi penyempurnaan global-lokal gabungan, yang digarisbawahi oleh peran ORM sebagai pengambil keputusan dalam memilih solusi yang paling menjanjikan.

Kesimpulan

Terobosan ini menandakan kemajuan dalam teknik penyempurnaan LLM dan konteks yang lebih luas dari kemampuan pemecahan masalah AI. Penelitian ini menyoroti jalan menuju sistem yang lebih otonom, efisien, dan cerdas dengan menguraikan kapan dan di mana penyempurnaan diperlukan dan menerapkan metodologi koreksi yang strategis. Keberhasilan pendekatan ini, yang dibuktikan dengan peningkatan substansial dalam akurasi pemecahan masalah, merupakan bukti potensi pelatihan sintetis dan penggunaan model imbalan yang inovatif.

Penelitian ini menawarkan cetak biru untuk eksplorasi masa depan ke dalam penyempurnaan LLM, menyarankan cara untuk menyempurnakan proses identifikasi kesalahan model dan meningkatkan kecanggihan strategi koreksi. Dengan dasar ini, kemungkinan LLM mencapai kemampuan penalaran yang mendekati manusia atau bahkan lebih unggul pada tugas-tugas kompleks menjadi lebih dekat dengan kenyataan.