AI Umum

Urutan Premis dan Penalaran AI: Dampak pada Model Bahasa Besar dari Google DeepMind dan Stanford

Aspek Menarik Penalaran Manusia

Penalaran deduktif merupakan aspek menarik dari kognisi manusia, di mana kesimpulan ditarik dari serangkaian premis atau fakta. Struktur logis menentukan bahwa urutan premis tidak boleh memengaruhi hasil penalaran, prinsip yang berlaku dalam proses kognitif manusia.

Permasalahan dalam AI

Namun, dalam AI, masalah ini muncul dalam LLM: kinerjanya sangat bervariasi dengan perubahan urutan premis yang disajikan meskipun kesimpulan logisnya tetap tidak berubah. Penelitian yang ada menyoroti bahwa efek urutan premis dalam LLM terkait dengan mode kegagalan seperti kutukan pembalikan, gangguan, dan kemampuan penalaran logis yang terbatas.

Dampak Konteks yang Tidak Relevan

Menyertakan konteks yang tidak relevan dalam pernyataan masalah menyebabkan penurunan kinerja dalam LLM, yang menunjukkan adanya gangguan. Ini berarti bahwa model bahasa dapat memahami teks yang diubah, tetapi kinerja penalaran LLM sangat sensitif terhadap urutan premis.

Penelitian Google Deepmind dan Stanford University

Para peneliti dari Google Deepmind dan Universitas Stanford telah memperkenalkan pendekatan baru untuk mengetahui dampak urutan premis pada kinerja penalaran LLM. Dengan mengubah urutan premis dalam tugas penalaran logis dan matematis, penelitian ini secara sistematis menilai kemampuan model untuk mempertahankan akurasi.

Temuan Penelitian

Temuannya jelas: penyimpangan dari urutan optimal dapat menyebabkan penurunan kinerja lebih dari 30%, menyoroti aspek sensitivitas model yang sebelumnya belum dieksplorasi.

Benchmark R-GSM

Efek urutan premis diukur dengan memvariasikan jumlah aturan yang diperlukan dalam pembuktian dan jumlah aturan yang mengganggu. Tolok ukur mencakup 27 ribu masalah dengan urutan premis dan jumlah aturan yang mengganggu berbeda. Dataset R-GSM dibangun untuk menilai efek urutan premis di luar penalaran logis dalam soal cerita matematika sekolah dasar. Tolok ukur R-GSM berisi 220 pasang soal dengan urutan pernyataan soal yang berbeda.

Kinerja LLM pada R-GSM

LLM berkinerja jauh lebih buruk pada soal-soal yang ditulis ulang dalam tolok ukur R-GSM. Sebuah contoh dalam R-GSM menunjukkan bahwa LLM menyelesaikan soal asli dengan benar tetapi gagal pada soal yang ditulis ulang.

Preferensi Urutan Premis

Penelitian menemukan bahwa kinerja LLM dalam tugas penalaran sangat dipengaruhi oleh urutan premis yang disajikan, dengan urutan maju memberikan hasil terbaik. Variasi dalam preferensi urutan premis diamati di antara LLM yang berbeda, terutama dengan GPT-4-turbo dan PaLM 2-L.

Dampak Aturan yang Mengganggu

Kehadiran aturan yang mengganggu selanjutnya memengaruhi kinerja penalaran, memperburuk tantangan. Dataset R-GSM menunjukkan penurunan umum dalam akurasi LLM, terutama dengan masalah yang diurutkan ulang, menyoroti masalah seperti halusinasi fakta dan kesalahan yang timbul dari pemrosesan berurutan dan urutan temporal yang diabaikan.

Kesimpulan

Studi ini secara kritis meneliti efek urutan premis, menyoroti area kinerja LLM yang mencerminkan bias kognitif manusia namun menyimpang dalam dampaknya terhadap akurasi penalaran. Dengan mengatasi keterbatasan ini, jalan ke depan melibatkan penyempurnaan kemampuan penalaran AI agar lebih selaras dengan sifat dinamis dan cair dari proses berpikir manusia, yang pada akhirnya mengarah pada model yang lebih serbaguna dan andal yang mampu menavigasi kompleksitas tugas penalaran dunia nyata.