AI Umum

INSTRUCTIR: Tolok Ukur Pembelajaran Mesin Baru untuk Mengevaluasi Instruksi yang Diikuti dalam Pengambilan Informasi

Pendahuluan

Model Bahasa Besar (LLM) semakin disesuaikan untuk menyelaraskan dengan preferensi dan instruksi pengguna di berbagai tugas generatif. Penyelarasan ini sangat penting bagi sistem pengambilan informasi untuk memenuhi berbagai tujuan dan preferensi pencarian pengguna secara efektif.

Kesenjangan dalam Sistem Pengambilan Informasi

Sistem pengambilan informasi saat ini sering kali perlu ditingkatkan dan mencerminkan preferensi pengguna secara memadai, dengan hanya berfokus pada kueri yang ambigu dan mengabaikan kebutuhan khusus pengguna. Perlunya tolok ukur yang disesuaikan untuk mengevaluasi sistem pengambilan informasi dalam skenario yang selaras dengan pengguna semakin menghambat pengembangan mekanisme mengikuti instruksi dalam tugas pengambilan informasi.

INSTRUCTIR: Tolok Ukur Baru

Untuk mengatasi tantangan ini, para peneliti di KAIST telah memperkenalkan tolok ukur terobosan, INSTRUCTIR. Tolok ukur baru ini mengevaluasi kemampuan model pengambilan informasi untuk mengikuti berbagai instruksi yang selaras dengan pengguna untuk setiap kueri, mencerminkan skenario pencarian dunia nyata.

Fitur INSTRUCTIR

Yang membedakan INSTRUCTIR adalah fokusnya pada instruksi per kasus, yang menyelidiki latar belakang, situasi, preferensi, dan tujuan pencarian pengguna. Instruksi ini dibuat dengan cermat melalui jalur pembuatan data yang ketat, memanfaatkan model bahasa canggih seperti GPT-4, dan diverifikasi melalui evaluasi manusia dan penyaringan mesin untuk memastikan kualitas kumpulan data.

Skor Ketahanan

INSTRUCTIR memperkenalkan skor Ketahanan sebagai metrik evaluasi, memberikan perspektif komprehensif tentang kemampuan pengambil informasi untuk mengikuti instruksi dengan kuat. Skor ini mengukur kemampuan beradaptasi mereka terhadap berbagai instruksi pengguna.

Evaluasi

Lebih dari 12 basis pengambil informasi, termasuk pengambil informasi yang naif dan yang disesuaikan dengan instruksi, dievaluasi pada INSTRUCTIR. Anehnya, pengambil informasi yang disesuaikan dengan instruksi bergaya tugas secara konsisten berkinerja buruk dibandingkan dengan rekan mereka yang tidak disesuaikan, sebuah temuan yang sebelumnya tidak diamati dengan tolok ukur yang ada. Memanfaatkan model bahasa yang disesuaikan dengan instruksi dan ukuran model yang lebih besar menunjukkan peningkatan kinerja yang signifikan.

Dampak INSTRUCTIR

Selain itu, fokus INSTRUCTIR pada instruksi per kasus alih-alih panduan khusus tugas yang kasar menawarkan evaluasi yang lebih bernuansa tentang kemampuan model pengambilan informasi untuk memenuhi kebutuhan pengguna individu. Dengan menggabungkan berbagai instruksi yang selaras dengan pengguna untuk setiap kueri, INSTRUCTIR mencerminkan kompleksitas skenario pencarian dunia nyata, di mana tujuan dan preferensi pengguna sangat bervariasi.

Evaluasi bernuansa yang disediakan oleh INSTRUCTIR memastikan bahwa sistem pengambilan informasi mampu memahami instruksi khusus tugas dan mahir beradaptasi dengan kerumitan kebutuhan pengguna individu.

Kesimpulan

Pada akhirnya, INSTRUCTIR adalah katalis yang kuat, mendorong kemajuan dalam sistem pengambilan informasi menuju kepuasan pengguna yang lebih besar dan efektivitas dalam mengatasi berbagai tujuan dan preferensi pencarian. Melalui INSTRUCTIR, wawasan berharga diperoleh tentang beragam karakteristik sistem pengambilan informasi yang ada, membuka jalan bagi pengembangan sistem akses informasi yang lebih canggih dan sadar instruksi. Tolok ukur ini diharapkan dapat mempercepat kemajuan dalam domain ini dengan menyediakan platform standar untuk mengevaluasi mekanisme mengikuti instruksi dalam tugas pengambilan informasi dan mendorong pengembangan sistem pengambilan informasi yang lebih adaptif dan berpusat pada pengguna.