AI Umum

Membuka “Kebijaksanaan Kerumunan Silikon”: Bagaimana Ansambel LLM Mendefinisikan Ulang Akurasi Perkiraan untuk Menyamai Keahlian Manusia

Model Bahasa Besar (LLM) dan Tantangannya

Model bahasa besar (LLM) yang dilatih pada sejumlah besar data teks menunjukkan kemampuan luar biasa dalam berbagai tugas melalui prediksi token berikutnya dan penyempurnaan. Tugas-tugas ini mencakup pemasaran, pemahaman bacaan, dan analisis medis. Sementara tolok ukur tradisional menjadi usang karena kemajuan LLM, membedakan antara pemahaman mendalam dan hafalan dangkal merupakan tantangan. Menilai kemampuan penalaran sejati LLM memerlukan pengujian yang mengevaluasi kemampuan mereka untuk menggeneralisasi di luar data pelatihan, yang sangat penting untuk penilaian yang akurat.

Ansambel LLM dan Kinerja Prediktif

Seringkali, ini berada pada tingkat koherensi yang sebelumnya dianggap hanya dapat dicapai oleh kognisi manusia (Tim Gemini, OpenAI). Mereka menunjukkan penerapan yang signifikan di seluruh antarmuka obrolan dan berbagai konteks lainnya.

Saat mengevaluasi kemampuan sistem AI tertentu, metode tradisional yang dominan adalah mengukur seberapa baik sistem AI tersebut melakukan tolok ukur tetap untuk tugas tertentu. Namun, masuk akal juga bahwa sebagian besar keberhasilan pada tolok ukur tugas ini disebabkan oleh hafalan dangkal dari solusi tugas dan pemahaman dangkal tentang pola kumpulan pelatihan secara umum.

Para peneliti dari MIT dan lainnya telah mempresentasikan pekerjaan mereka dalam Studi 1 dan Studi 2.

Studi 1: Membandingkan LLM dengan Peramal Manusia

Dalam Studi 1, para peneliti menggunakan pendekatan ansambel, menggunakan dua belas LLM, untuk memprediksi hasil dari 31 pertanyaan biner. Mereka membandingkan prediksi LLM agregat ini dengan 925 peramal manusia dari turnamen perkiraan tiga bulan. Hasil menunjukkan bahwa kerumunan LLM mengungguli tolok ukur tanpa informasi dan menyamai kinerja kerumunan manusia.

Studi 2: Meningkatkan Prediksi LLM dengan Input Kognitif Manusia

Selain itu, Studi 2 mengeksplorasi peningkatan prediksi LLM dengan menggabungkan keluaran kognitif manusia, dengan fokus pada model GPT-4 dan Claude 2.

Metodologi dan Hasil

Dalam Studi 1, para peneliti mengumpulkan data dari dua belas LLM yang beragam, termasuk GPT-4 dan Claude 2. Mereka membandingkan prediksi LLM pada 31 pertanyaan biner dengan 925 peramal manusia dari turnamen tiga bulan, menemukan kesetaraan statistik.

Dalam Studi 2, para peneliti secara eksklusif berfokus pada GPT-4 dan Claude 2, menggunakan desain dalam model untuk mengumpulkan pra dan pasca intervensi perkiraan per pertanyaan. Mereka menyelidiki perilaku pembaruan LLM mengenai estimasi prediksi manusia dari turnamen perkiraan dunia nyata, menggunakan petunjuk yang lebih panjang untuk panduan.

Dalam studi 1, mereka mengumpulkan 1007 perkiraan dari 12 LLM, mengamati prediksi yang sebagian besar di atas titik tengah 50%. Nilai perkiraan rata-rata kerumunan LLM secara signifikan melebihi 50%, dengan 45% pertanyaan diselesaikan secara positif, menunjukkan bias terhadap hasil positif.

Dalam Studi 2, 186 perkiraan primer dan yang diperbarui dari GPT-4 dan Claude 2 dianalisis lebih dari 31 pertanyaan. Paparan perkiraan kerumunan manusia secara signifikan meningkatkan akurasi model dan mempersempit interval prediksi, dengan penyesuaian yang berkorelasi dengan penyimpangan dari tolok ukur manusia.

Kesimpulan

Sebagai kesimpulan, MIT dan lainnya telah mempresentasikan studi mereka dalam prediksi ansambel LLM. Studi ini menunjukkan bahwa ketika LLM memanfaatkan kecerdasan kolektif, mereka dapat menyaingi metode berbasis kerumunan manusia dalam perkiraan probabilistik. Sementara penelitian sebelumnya menunjukkan LLM berkinerja buruk dalam beberapa konteks, menggabungkan model yang lebih sederhana dalam kerumunan dapat menjembatani kesenjangan. Pendekatan ini menawarkan manfaat praktis untuk berbagai aplikasi dunia nyata, yang berpotensi membekali pembuat keputusan dengan perkiraan politik, ekonomi, dan teknologi yang akurat, membuka jalan bagi penggunaan prediksi LLM yang lebih luas oleh masyarakat.