AI Umum

Mengajarkan SOLAR untuk Bersinar: Bagaimana sDPO dari Upstage AI Menyelaraskan Model Bahasa dengan Nilai-Nilai Manusia

Pengantar

Bayangkan memiliki asisten AI super cerdas yang tidak hanya memiliki pengetahuan luas, tetapi juga memahami dan menghormati nilai-nilai, etika, dan preferensi Anda. Sebuah tim peneliti mungkin telah memecahkan kode untuk menjadikan fantasi fiksi ilmiah ini menjadi kenyataan.

sDPO: Menyelaraskan Model Bahasa dengan Nilai-Nilai Manusia

Para peneliti di Upstage AI telah mengembangkan teknik inovatif yang disebut “stepwise Direct Preference Optimization” (sDPO). sDPO adalah cara cerdik untuk menyelaraskan model bahasa besar dengan nilai-nilai dan preferensi manusia.

sDPO menggunakan proses pembelajaran bergaya kurikulum untuk secara bertahap menanamkan preferensi manusia ke dalam model. Pertama, peneliti mengumpulkan data yang menangkap preferensi manusia tentang apa yang merupakan respons baik vs. buruk terhadap pertanyaan. Data ini kemudian dibagi menjadi beberapa bagian.

Pada fase pertama, model AI dilatih pada bagian pertama sambil menggunakan dirinya sendiri yang asli dan tidak disempurnakan sebagai titik referensi. Hal ini memungkinkannya menjadi sedikit lebih selaras dengan preferensi manusia dibandingkan sebelumnya.

Pada fase berikutnya, versi model yang lebih selaras ini sekarang menjadi titik referensi baru. Model ini dilatih pada bagian kedua dari data preferensi, mendorongnya untuk menjadi lebih selaras. Proses bertahap ini berlanjut hingga semua data preferensi telah dikonsumsi.

Hasil yang Luar Biasa

Hasil eksperimen sDPO sangat luar biasa. Dengan menyempurnakan model bahasa SOLAR 10,7 miliar parameter menggunakan sDPO dan memanfaatkan dua set data preferensi (OpenOrca dan Ultrafeedback Cleaned), para peneliti mencapai tingkat kinerja yang bahkan melampaui model yang lebih besar seperti Mixtral 8x7B-Instruct-v0.1.

Pada HuggingFace Open LLM Leaderboard, model SOLAR yang diselaraskan dengan sDPO mencapai skor rata-rata 74,31 di berbagai tugas, mengungguli model yang lebih besar. Yang lebih mengesankan adalah kinerjanya pada tugas TruthfulQA, di mana ia memperoleh skor 72,45 yang luar biasa, menunjukkan komitmennya yang teguh terhadap kejujuran.

Kesimpulan

Keberhasilan sDPO memberikan gambaran sekilas tentang masa depan di mana kecerdasan buatan dan kebijaksanaan manusia hidup berdampingan dalam harmoni yang sempurna. Teknik inovatif seperti sDPO membawa kita lebih dekat untuk mencapai keselarasan sejati antara AI dan nilai-nilai manusia.