AI Umum

Bisakah Model Bahasa Besar Dipercaya untuk Evaluasi? Perkenalkan SCALEEVAL: Kerangka Kerja Meta-Evaluasi yang Dibantu Debat Agen yang Memanfaatkan Kemampuan Beberapa Agen LLM Komunikatif

Meskipun model bahasa besar (LLM) bermanfaat untuk berbagai tugas dan skenario, para peneliti memerlukan bantuan untuk mengevaluasi LLM dengan benar dalam berbagai situasi. Mereka menggunakan LLM untuk memeriksa respons mereka, tetapi solusi harus ditemukan. Metode ini terbatas karena tidak ada cukup tolok ukur, dan sering kali membutuhkan banyak masukan manusia. Mereka sangat membutuhkan cara yang lebih baik untuk menguji seberapa baik LLM dapat mengevaluasi berbagai hal dalam semua situasi, terutama ketika pengguna menentukan skenario baru.

LLM telah maju secara signifikan, menunjukkan kinerja yang mengesankan di berbagai tugas. Namun, mengevaluasi keluaran mereka menghadirkan tantangan yang kompleks. Pendekatan saat ini terutama bergantung pada metrik otomatis, yang sering kali menggunakan LLM untuk evaluasi. Sementara beberapa fungsi menjalani meta-evaluasi yang ketat, yang memerlukan kumpulan data beranotasi manusia yang mahal, banyak aplikasi memerlukan pengawasan lebih lanjut, yang menyebabkan potensi tidak dapat diandalkannya LLM sebagai evaluator.

Para peneliti dari Universitas Jiao Tong Shanghai, Universitas Carnegie Mellon, Laboratorium Kecerdasan Buatan Shanghai, dan Laboratorium Riset AI Generatif (GAIR) memperkenalkan SCALEEVAL, kerangka kerja meta-evaluasi yang memanfaatkan beberapa agen LLM komunikatif dengan pendekatan debat agen. Sistem ini memfasilitasi diskusi multi-putaran, membantu anotator manusia dalam mengidentifikasi LLM yang paling mahir untuk evaluasi. Pendekatan ini secara substansial mengurangi beban pada anotator, terutama dalam skenario di mana anotasi ekstensif secara tradisional diperlukan untuk meta-evaluasi.

SCALEEVAL

SCALEEVAL memanfaatkan debat multi-agen untuk meta-evaluasi LLM yang andal. Dalam proses meta-evaluasi, agen LLM terlibat dalam putaran diskusi untuk menilai tanggapan berdasarkan kriteria yang ditentukan pengguna. Ini mengurangi ketergantungan pada anotasi manusia yang ekstensif dan memastikan skalabilitas. Kerangka kerja evaluasi melibatkan perbandingan respons berpasangan, dengan fokus pada LLM seperti gpt-3.5-turbo. Meta-meta evaluasi ahli manusia memvalidasi keandalan metode yang diusulkan dengan menerapkan protokol anotasi yang dibantu oleh debat agen dan ahli manusia. Pendekatan ini menyeimbangkan efisiensi dengan penilaian manusia untuk penilaian yang akurat dan tepat waktu.

Studi Kasus

Studi mengungkapkan bahwa kinerja LLM sebagai evaluator cenderung menurun ketika huruf tertentu dalam kriteria diminta ditutup. Penghapusan frasa panduan semakin mengurangi efektivitas. Gpt-4-turbo dan gpt-3.5-turbo menunjukkan ketahanan, mempertahankan tingkat kesepakatan yang konsisten di seluruh format kriteria. Sebaliknya, Claude-2 menunjukkan kebingungan dan keengganan, terutama dengan petunjuk yang berlawanan, menolak sekitar setengah dari pertanyaan. LLM yang diuji berjuang dengan informasi kriteria yang diganti, yang menunjukkan ruang untuk perbaikan dalam desain dan penerapannya meskipun kemampuannya canggih.

Kesimpulan

Sebagai kesimpulan, para peneliti telah memperkenalkan SCALEEVAL, kerangka kerja meta-evaluasi yang dapat diskalakan yang memanfaatkan bantuan debat agen untuk menilai LLM sebagai evaluator. Proposal ini membahas inefisiensi metode meta-evaluasi konvensional yang intensif sumber daya, yang sangat penting karena penggunaan LLM tumbuh. Studi ini tidak hanya memvalidasi keandalan SCALEEVAL tetapi juga menjelaskan kemampuan dan keterbatasan LLM dalam berbagai skenario. Karya ini berkontribusi untuk memajukan solusi yang dapat diskalakan untuk mengevaluasi LLM, yang penting untuk aplikasi mereka yang terus berkembang.