AI Umum

Penyesalan Agen LLM: Studi Kasus Pembelajaran dan Permainan Daring dari MIT dan University of Maryland

Model Bahasa Besar (LLM) dan Pembuatan Keputusan

LLM telah banyak digunakan untuk pembuatan keputusan (interaktif) melalui pengembangan model agen berbasis LLM. Dalam beberapa tahun terakhir, LLM telah menunjukkan keberhasilan luar biasa dalam AI yang diwujudkan, ilmu alam, dan aplikasi ilmu sosial. LLM juga menunjukkan potensi luar biasa dalam menyelesaikan berbagai permainan. Keberhasilan empiris yang menarik ini memerlukan pemeriksaan dan pemahaman yang cermat melalui lensa teoretis pembuatan keputusan.

Penyesalan sebagai Metrik Kinerja

Namun, kinerja agen LLM dalam pengambilan keputusan belum diselidiki secara menyeluruh melalui metrik kuantitatif, terutama dalam pengaturan multi-agen ketika mereka berinteraksi satu sama lain, skenario umum dalam aplikasi agen LLM di dunia nyata. Oleh karena itu, wajar untuk bertanya: Apakah mungkin untuk memeriksa dan lebih memahami perilaku pengambilan keputusan daring dan strategis LLM melalui lensa penyesalan?

Arsitektur Berprinsip untuk Agen LLM

Kemampuan LLM yang mengesankan untuk bernalar telah mengilhami penelitian yang meningkat tentang bagaimana agen otonom berbasis LLM berinteraksi dengan lingkungan dengan mengambil tindakan berulang/berurutan berdasarkan umpan balik yang mereka terima. Beberapa janji signifikan telah ditunjukkan dari perspektif perencanaan. Secara khusus, untuk aplikasi AI yang diwujudkan, misalnya, robotika, LLM telah mencapai kinerja yang mengesankan ketika digunakan sebagai pengontrol untuk pengambilan keputusan. Namun, kinerja pengambilan keputusan belum dikarakterisasi secara ketat melalui metrik penyesalan dalam karya-karya ini.

Baru-baru ini, beberapa peneliti telah mengusulkan arsitektur berprinsip untuk agen LLM, dengan jaminan penyesalan yang dapat dibuktikan dalam lingkungan pengambilan keputusan stasioner dan stokastik, di bawah kerangka proses keputusan Markov adaptif Bayesian.

Studi Interaksi Agen LLM

Untuk lebih memahami batasan agen LLM dalam lingkungan interaktif ini, para peneliti dari MIT dan University of Maryland mengusulkan untuk mempelajari interaksi mereka dalam pengaturan pengambilan keputusan tolok ukur dalam pembelajaran daring dan teori permainan melalui metrik kinerja penyesalan.

Kerangka Kerja untuk Memvalidasi Perilaku Tanpa Penyesalan

Mereka mengusulkan kerugian pelatihan tanpa pengawasan yang unik dari kerugian-penyesalan, yang, berbeda dengan kerugian pra-pelatihan yang diawasi, tidak memerlukan label tindakan (optimal). Kemudian, mereka menetapkan jaminan statistik ikatan generalisasi untuk meminimalkan kerugian-penyesalan, diikuti oleh jaminan optimasi bahwa meminimalkan kerugian tersebut secara otomatis dapat mengarah pada algoritme pembelajaran tanpa penyesalan yang diketahui.

Peneliti mengusulkan dua kerangka kerja untuk memvalidasi secara ketat perilaku tanpa penyesalan algoritme selama T yang terbatas, yang mungkin menarik secara independen: kerangka kerja Pemeriksaan Tren dan kerangka kerja Berbasis Regresi.

Hasil Eksperimen

Dalam eksperimen, Mereka membandingkan GPT-4 dengan algoritme tanpa penyesalan yang terkenal, FTRL dengan regularisasi entropi, dan FTPL dengan gangguan Gaussian (dengan parameter yang disetel). LLM yang telah dilatih sebelumnya ini dapat mencapai tanpa penyesalan dan seringkali memiliki penyesalan yang lebih kecil daripada garis dasar ini.

Sementara membandingkan kinerja LLM yang telah dilatih sebelumnya dengan rekan-rekan FTRL dengan umpan balik bandit, misalnya, EXP3 dan versi bandit FTPL, di mana GPT-4 secara konsisten mencapai penyesalan yang lebih rendah.

Kesimpulan

Sebagai kesimpulan, para peneliti dari MIT dan University of Maryland mempelajari pengambilan keputusan daring dan perilaku strategis LLM secara kuantitatif melalui metrik penyesalan. Mereka memeriksa dan memvalidasi perilaku tanpa penyesalan dari beberapa LLM yang telah dilatih sebelumnya yang representatif dalam pembelajaran daring dan pengaturan permainan tolok ukur. Mereka kemudian memberikan wawasan teoretis tentang perilaku tanpa penyesalan dengan menghubungkan LLM yang telah dilatih sebelumnya ke algoritme ikuti-pemimpin-yang-terganggu dalam pembelajaran daring di bawah asumsi tertentu. Mereka juga mengidentifikasi kasus (sederhana) di mana LLM yang telah dilatih sebelumnya gagal menjadi tanpa penyesalan.

Oleh karena itu, mereka mengusulkan kerugian pelatihan tanpa pengawasan baru, kerugian-penyesalan, untuk secara jelas mempromosikan perilaku tanpa penyesalan Transformer tanpa label tindakan (optimal).