AI Umum

Peningkatan Agen LLM: Membuka Kunci Kinerja yang Lebih Baik Melalui Kesederhanaan

Metode Pengambilan Sampel dan Pemungutan Suara

Metode pengambilan sampel dan pemungutan suara pada intinya sangat sederhana dan terdiri dari dua fase (Lihat Gambar 2):

  • Pengambilan Sampel: Kueri tugas dimasukkan berulang kali ke dalam LLM (atau kerangka kerja dengan beberapa agen LLM), menghasilkan beberapa keluaran (sampel).
  • Pemungutan Suara: Pemungutan suara mayoritas menentukan jawaban akhir. Untuk tugas tertutup (misalnya, pilihan ganda), ini melibatkan penghitungan frekuensi setiap opsi. Untuk tugas terbuka (misalnya, pembuatan kode), ukuran kesamaan seperti skor BLEU digunakan untuk memberi peringkat sampel. Sampel dengan kesamaan tertinggi dengan yang lain menang.

Proses ini (Algoritma 1) secara elegan agnostik, menjadikannya plug-in yang ampuh untuk menyempurnakan teknik LLM yang ada. Kemanjuran metode ini dievaluasi secara ekstensif di tiga tugas berikut:

  • Penalaran Aritmatika: GSM8K dan kumpulan data MATH yang menantang
  • Penalaran Umum: MMLU dan tugas pelacakan status catur
  • Pembuatan Kode: Kumpulan data HumanEval

Untuk mengeksplorasi berbagai manfaat, penulis menguji model bahasa dengan berbagai skala, termasuk Llama2, GPT-3.5-Turbo, dan GPT-4. Untuk menguji seberapa baik metode ini bekerja dengan metode lain, metode ini dikombinasikan dengan beragam teknik:

  • Rekayasa Perintah: Integrasi dengan Chain-of-Thought (CoT), Zero-Shot Cot, dan Solo Performance Prompting.
  • Kolaborasi Beberapa Agen LLM: Digunakan bersama dengan metode gaya debat (LLM-Debate) dan refleksi diri.

Hasilnya menawarkan wawasan yang menarik:


  • Penskalaan Kinerja: Meningkatkan jumlah agen umumnya meningkatkan kinerja LLM di seluruh tugas dan model dengan berbagai ukuran. Yang mengejutkan, LLM yang lebih kecil, ketika ditingkatkan, sering kali menyaingi atau mengungguli rekan-rekan yang lebih besar (Gbr. 1).
  • Kompatibilitas: Metode ini berpadu mulus dengan teknik lain, yang menghasilkan peningkatan kinerja yang lebih besar.
  • Kesederhanaan vs. Kompleksitas: Dalam kebanyakan kasus, metode yang diusulkan saja mencapai hasil yang setara dengan pendekatan yang lebih kompleks, menunjukkan kekuatan dalam desainnya yang lugas.

Eksperimen menyeluruh menunjukkan konsistensi metode di seluruh hiperparameter (Gbr. 4) dan mengungkapkan poin penting: peningkatan kinerja berkorelasi positif dengan kesulitan tugas (Tabel 5). Untuk mengurai hubungan ini, tiga dimensi kesulitan diisolasi:

  • Kesulitan yang Melekat: Keuntungan pertama meningkat dan kemudian menurun karena masalah menjadi sangat kompleks.
  • Jumlah Langkah: Keuntungan menjadi lebih jelas seiring dengan peningkatan langkah-langkah yang diperlukan untuk menyelesaikan tugas.
  • Probabilitas Sebelumnya: Kinerja meningkat ketika kemungkinan jawaban yang benar lebih tinggi.

Temuan ini mengilhami pengoptimalan seperti pengambilan sampel dan pemungutan suara bertahap atau hierarkis, yang memaksimalkan keuntungan melalui pemahaman yang bernuansa tentang kesulitan tugas.

Kesimpulannya, karya ini menetapkan tolok ukur baru, menunjukkan bahwa terkadang, ‘lebih banyak agen’ mungkin memang yang Anda perlukan. Dalam banyak kasus, meningkatkan agen LLM dengan strategi pengambilan sampel dan pemungutan suara yang sederhana secara signifikan meningkatkan kinerja tanpa metode yang rumit. Penemuan ini menyederhanakan aplikasi LLM yang kompleks dan membuka jalan bagi pengoptimalan biaya sistem masa depan, yang menjadi fokus penelitian yang sedang berlangsung.