AI Umum

Optimalisasi Preferensi Model Bahasa dengan ORPO: Terobosan Baru dalam Penyelarasan

Pengantar

Model bahasa terlatih (PLM) telah merevolusi kecerdasan buatan, meniru pemahaman dan pembuatan teks seperti manusia. Namun, muncul tantangan dalam menyelaraskan model-model ini dengan preferensi manusia. Tim KAIST AI memperkenalkan pendekatan baru, Odds Ratio Preference Optimization (ORPO), yang menjanjikan untuk merevolusi penyelarasan model dan menetapkan standar baru untuk AI yang etis.

Metode Tradisional vs ORPO

Metode tradisional untuk meningkatkan penyelarasan PLM bergantung pada penyesuaian halus yang diawasi (SFT) dan pembelajaran penguatan dengan umpan balik manusia (RLHF). Proses ini rumit, biasanya melibatkan prosedur penyelarasan multi-tahap yang memerlukan model referensi tambahan, sehingga pelatihan menjadi intensif sumber daya dan memakan waktu.

ORPO menyederhanakan proses ini dengan mengintegrasikan penyelarasan preferensi langsung ke dalam fase SFT. Dengan menghilangkan kebutuhan akan model referensi terpisah, ORPO sangat menyederhanakan proses pelatihan model.

Cara Kerja ORPO

ORPO mengadopsi pendekatan monolitik, menggunakan penalti berbasis rasio peluang baru dalam fungsi kerugian log-likelihood negatif konvensional. Hal ini memungkinkan kontras langsung antara gaya respons yang disukai dan tidak disukai selama proses SFT, meningkatkan kemampuan model untuk menghasilkan respons yang tidak hanya relevan tetapi juga sejalan dengan nilai-nilai manusia.

Dampak dan Manfaat ORPO

ORPO terbukti tangguh dan serbaguna. Tim menunjukkan keefektifannya dengan menerapkannya ke berbagai model bahasa berskala besar di berbagai tolok ukur, termasuk Phi-2 dan Llama-2. Hasilnya luar biasa. Model yang disetel halus dengan ORPO menunjukkan kinerja yang unggul, melampaui model canggih yang ada dalam tugas-tugas seperti mengikuti instruksi dan terjemahan mesin.

Selain meningkatkan kinerja model, ORPO juga membuat pengembangan AI lebih efisien sumber daya. Dengan menghilangkan kebutuhan akan model referensi tambahan, ORPO membuka jalan bagi proses pengembangan model yang lebih cepat dan lebih ekonomis.

Kesimpulan

ORPO adalah tonggak penting dalam kecerdasan buatan. Ini menyederhanakan penyelarasan model dan meningkatkan kemampuan kita untuk mengembangkan sistem AI yang sejalan dengan nilai-nilai manusia. ORPO mewujudkan visi menciptakan AI yang menghormati dimensi etis preferensi manusia.