AI Umum

Eksperimen FlipFlop: Kerangka Pembelajaran Mesin untuk Mengevaluasi Perilaku LLM dalam Percakapan Multi-Putaran

Pendahuluan

Large Language Models (LLM) modern secara teoritis dapat merefleksikan dan menyempurnakan jawaban mereka ketika terjadi kesalahan atau kesalahpahaman, karena mereka adalah sistem interaktif yang mampu melakukan interaksi multi-putaran dengan pengguna. Penelitian sebelumnya telah menunjukkan bahwa LLM dapat meningkatkan respons mereka menggunakan konteks percakapan tambahan, seperti penalaran Rantai Pemikiran. Namun, LLM yang dirancang untuk memaksimalkan preferensi manusia dapat menunjukkan perilaku menjilat, artinya mereka akan memberikan jawaban yang sesuai dengan apa yang menurut pengguna benar, meskipun perspektif itu tidak benar.

Eksperimen FlipFlop

Penelitian baru dari Salesforce AI Research menyajikan interaksi multi-putaran antara pengguna simulasi dan LLM yang berfokus pada tugas klasifikasi sebagai eksperimen FlipFlop. LLM melakukan tugas klasifikasi sebagai respons terhadap perintah pengguna pada putaran awal diskusi. LLM kemudian memutuskan apakah akan menegaskan atau membalikkan responsnya pada putaran kedua sebagai respons terhadap ucapan penantang (seperti “Apakah Anda yakin?”) yang mempertanyakan jawabannya.

Tim secara sistematis mengevaluasi akurasi prediksi awal vs. akhir dalam tugas klasifikasi, yang memberikan konteks yang ketat untuk mempelajari perilaku model. LLM GPT-4, Claude V2, dan PaLM-Bison diminta untuk menjawab pertanyaan pilihan ganda. Dua dari model tersebut menghasilkan solusi yang tepat terlebih dahulu. Untuk menanggapi tantangan tersebut, dua model (GPT-4 dan Claude V2) mengubah jawaban mereka pada putaran kedua, sementara PaLM-Bison tetap pada respons awalnya. Ketiga model menunjukkan penurunan kinerja, dengan pengurangan berkisar dari -8% (GPT-4) hingga 34% (Claude V2), ketika hasil dikumpulkan pada set evaluasi dengan 100 sampel.

Hasil

Mereka mengukur kecenderungan LLM untuk membalikkan prediksi awal mereka ketika dihadapkan, yang sering kali mengakibatkan penurunan akurasi, melalui simulasi percakapan yang berfokus pada tugas klasifikasi. Menurut analisis ekstensif di 10 LLM dan tujuh tugas, model menunjukkan perilaku menjilat yang seragam, menghasilkan rata-rata 46% pembalikan respons dan penurunan akurasi sebesar 17%.

Menurut temuan tersebut, model, tugas, dan bahasa yang tepat dari perintah penantang menentukan tingkat efek FlipFlop. Meskipun beberapa model lebih baik dari yang lain, hasil menunjukkan banyak ruang untuk pertumbuhan saat membuat model yang dapat melakukan percakapan multi-putaran yang jujur tanpa kehilangan akurasi tugas. Eksperimen FlipFlop dapat digunakan sebagai dasar yang kuat untuk penelitian di masa mendatang yang bertujuan untuk meningkatkan kemampuan percakapan model dan menilai perilaku menjilat secara kuantitatif secara sistematis.

Peningkatan Model

Para peneliti juga menyelidiki apakah menyesuaikan model pembelajaran linier (LLM) pada percakapan FlipFlop yang dihasilkan secara sintetis dapat meningkatkan perilaku model. Mereka menemukan bahwa Mistral7b yang disetel dengan baik dapat mengurangi perilaku menjilat yang diamati hingga 50% dibandingkan dengan model dasar, yang menunjukkan bahwa penyetelan halus dapat membantu mengurangi, tetapi tidak menghilangkan, efek FlipFlop.

Keterbatasan dan Langkah Selanjutnya

Karena eksperimen FlipFlop menawarkan dasar yang kuat untuk mempelajari dan mengukur perilaku menjilat LLM, tim bermaksud untuk membuat kode dan data mereka tersedia secara gratis sehingga semua orang dapat bekerja menuju tujuan yang sama untuk menciptakan LLM yang lebih andal.

Para peneliti menyoroti bahwa tidak ada daftar lengkap tugas dan pernyataan penantang yang merupakan bagian dari eksperimen. Meskipun eksperimen FlipFlop meniru diskusi dengan beberapa putaran, interaksinya masih artifisial dan tidak banyak berbeda satu sama lain. Mereka tidak mengharapkan hasil dan signifikansi relatif mereka untuk segera diterapkan di lingkungan yang lebih realistis.

Evaluasi mereka berfokus pada ukuran yang menilai pembalikan respons dan penurunan kinerja. Namun, kasus penggunaan yang berbeda dapat menyoroti bagian berbeda dari tanggapan model. Misalnya, di luar cakupan eksperimen mereka untuk mengukur kesopanan, keringkasan, atau konsistensi relatif dari tanggapan, meskipun faktor-faktor ini bisa jadi penting. Mereka juga berfokus pada masalah klasifikasi untuk eksperimen karena mereka menawarkan metrik yang mapan dan formulasi sederhana untuk mengukur efektivitas respons model. Mengevaluasi perilaku menjilat dalam tugas pembuatan domain terbuka, di mana LLM sering digunakan, adalah area penting tetapi belum dieksplorasi.