AI Umum

Peneliti dari Google DeepMind dan Stanford Memperkenalkan Penilai Faktualitas yang Disempurnakan dengan Pencarian (SAFE): Meningkatkan Evaluasi Faktualitas pada Model Bahasa Besar

Pendahuluan

Memahami dan meningkatkan faktualitas tanggapan yang dihasilkan oleh model bahasa besar (LLM) sangat penting dalam penelitian kecerdasan buatan. Domain ini menyelidiki seberapa baik model-model ini dapat mematuhi kebenaran saat menjawab pertanyaan terbuka yang mencari fakta di berbagai topik. Terlepas dari kemajuannya, LLM sering kali perlu bekerja untuk menghasilkan konten yang tidak mengandung ketidakakuratan faktual karena menimbulkan masalah keandalan yang signifikan dalam aplikasi dunia nyata di mana informasi yang akurat sangat penting.

Pendekatan yang Ada

Pendekatan yang ada untuk menilai faktualitas konten yang dihasilkan model biasanya bergantung pada evaluasi manusia secara langsung. Meskipun berharga, proses ini secara inheren dibatasi oleh subjektivitas dan variabilitas penilaian manusia serta tantangan skalabilitas dalam menerapkan tenaga manusia pada kumpulan data atau model yang besar. Akibatnya, terdapat kebutuhan akan metode yang lebih otomatis dan objektif untuk menilai keakuratan informasi yang dihasilkan oleh LLM.

Penilai Faktualitas yang Disempurnakan dengan Pencarian (SAFE)

Peneliti dari Google DeepMind dan Universitas Stanford telah memperkenalkan kerangka evaluasi otomatis baru yang disebut Penilai Faktualitas yang Disempurnakan dengan Pencarian (SAFE). Kerangka kerja ini bertujuan untuk mengatasi tantangan dalam menilai faktualitas konten yang dihasilkan oleh LLM. Dengan mengotomatiskan proses evaluasi, SAFE menyajikan solusi yang skalabel dan efisien untuk memverifikasi keakuratan informasi yang dihasilkan oleh model-model ini, menawarkan kemajuan yang signifikan dibandingkan metode pemeriksaan fakta tradisional yang padat karya yang sangat bergantung pada anotator manusia.

Metodologi SAFE

Metodologi SAFE secara komprehensif menganalisis tanggapan bentuk panjang yang dihasilkan oleh LLM dengan memecahnya menjadi fakta-fakta individual. Setiap fakta kemudian diverifikasi secara independen untuk keakuratannya menggunakan Google Penelusuran sebagai titik referensi. Awalnya, para peneliti menggunakan GPT untuk menghasilkan LongFact, kumpulan data yang terdiri dari sekitar 16.000 fakta yang diambil dari berbagai topik. Proses ini melibatkan sistem penalaran multi-langkah yang canggih, yang mengevaluasi dukungan untuk setiap fakta dalam konteks hasil pencarian.

SAFE diterapkan pada tiga belas model bahasa yang mencakup empat keluarga model, termasuk Gemini, GPT, Claude, dan PaLM-2, untuk mengevaluasi dan membandingkan kinerja faktualitas mereka. Pendekatan terperinci ini memastikan penilaian yang menyeluruh dan objektif terhadap konten yang dihasilkan LLM.

Efektivitas SAFE

Efektivitas SAFE ditegaskan secara kuantitatif ketika evaluasinya selaras dengan anotator manusia pada 72% dari sekitar 16.000 fakta individu LongFact. Dalam analisis terfokus terhadap 100 fakta kontroversial, penentuan SAFE benar 76% dari waktu di bawah pengawasan lebih lanjut. Kerangka kerja ini juga menunjukkan keunggulan ekonominya, menjadi lebih dari 20 kali lebih murah daripada anotasi manusia.

Tes benchmark pada tiga belas model bahasa menunjukkan bahwa model yang lebih besar, seperti GPT-4-Turbo, umumnya mencapai faktualitas yang lebih baik, dengan tingkat presisi faktual mencapai hingga 95%.

Kesimpulan

SAFE menawarkan metode yang skalabel dan hemat biaya untuk mengevaluasi faktualitas konten yang dihasilkan LLM secara akurat. Sebagai kesimpulan, penelitian ini memperkenalkan SAFE, sebuah kerangka kerja inovatif yang dikembangkan oleh para peneliti dari Google DeepMind dan Universitas Stanford untuk menilai keakuratan LLM. Metodologi SAFE menggunakan Google Penelusuran untuk memverifikasi fakta-fakta individual dalam tanggapan LLM, menunjukkan keselarasan yang tinggi dengan penilaian manusia. Dengan menyediakan metode yang skalabel dan hemat biaya untuk evaluasi faktual, penelitian ini secara signifikan memajukan bidang AI, meningkatkan kepercayaan dan keandalan informasi yang dihasilkan oleh LLM.