AI Umum

Memahami Kemampuan Penalaran Model Bahasa dari Perspektif Agregasi Jalur Penalaran

Model Bahasa Besar (LLM) telah terbukti sangat baik dalam menangani masalah penalaran yang rumit dalam beberapa waktu terakhir. Tugas-tugas ini mencakup pemecahan teka-teki matematika, penerapan logika untuk memecahkan kesulitan, dan pemecahan tantangan yang melibatkan pengetahuan dunia tanpa penyetelan halus yang eksplisit. Para peneliti telah mencoba menjawab pertanyaan tentang peran apa yang dimiliki pra-pelatihan dalam membangun kapasitas penalaran melalui prediksi token berikutnya.

Dalam penelitian terbaru, tim peneliti telah berfokus pada pemahaman munculnya kemampuan penalaran, pada dasarnya, kemampuan untuk menyimpulkan informasi baru dari pengetahuan yang diperoleh sebelumnya. Pra-pelatihan intensif adalah cara LLM memperoleh kemampuan yang muncul. Penelitian ini terutama bertujuan untuk mempelajari kontribusi data pra-pelatihan terhadap penalaran model bahasa.

Tim tersebut telah berbagi bahwa studi ini mengambil pendekatan Bayesian untuk menjelaskan mengapa kemampuan penalaran dalam LLM dapat dibuka melalui pra-pelatihan prediksi token berikutnya. Menurut hipotesis, LLM dapat menggunakan target prediksi token berikutnya untuk mengumpulkan jalur penalaran tidak langsung yang diamati selama pra-pelatihan. Rute penalaran dapat dianggap sebagai argumen tekstual yang menghubungkan dua konsep dalam situasi dunia nyata. Menurut gagasan tersebut, LLM mungkin menggunakan saluran penalaran ini untuk melompat dari satu gagasan ke gagasan lain selama inferensi, yang dapat menghasilkan pembuatan solusi rantai pemikiran (CoT) atau penalaran diam-diam yang tidak menghasilkan keluaran eksplisit.

Penelitian sebelumnya telah menekankan pentingnya struktur lokal dalam hubungan antara variabel dalam data pelatihan, khususnya untuk penalaran CoT. Namun, penelitian ini menegaskan bahwa ketika jalur penalaran mengaitkan dua konsep, mereka cenderung muncul bersama dalam data, menghasilkan struktur lokal seperti grafik.

Studi ini telah difokuskan pada dua bentuk penalaran umum, matematis dan logis, untuk menguji teori-teori ini. Analisisnya adalah tentang penalaran atas grafik pengetahuan (KG) dengan jalur jalan acak yang dikembangkan selama pra-pelatihan untuk penalaran logis. Karya tersebut telah menunjukkan bahwa dibandingkan dengan algoritma peringkat jalur tradisional, LM yang telah dilatih sebelumnya pada jalur jalan acak dari KG dapat secara akurat menyimpulkan tautan terkait yang hilang.

Studi ini telah membahas masalah pemecahan masalah kata matematika (MWP) untuk penalaran matematika. Metode ini menggunakan data pelatihan CoT yang sudah ada sebelumnya untuk membuat jalur penalaran jalan acak daripada memulai dari awal saat melakukan pra-pelatihan LM. LM kemudian dilatih menggunakan prediksi token berikutnya di sepanjang jalur ini. Tim tersebut telah berbagi bahwa hasil dari eksperimen pada beberapa kumpulan data MWP secara konsisten mengungguli penyetelan halus yang dipandu standar.

Tim telah merangkum kontribusi utama mereka sebagai berikut.

  • Validasi Hipotesis Jalan Acak Tertimbang: Temuan menunjukkan bahwa gagasan menggabungkan jalur penalaran jalan acak tertimbang memberikan penjelasan yang masuk akal tentang bagaimana model bahasa belajar bernalar.
  • Metode ini bekerja dengan baik untuk penalaran matematika menggunakan masalah kata matematika dan penalaran logis menggunakan grafik pengetahuan, menunjukkan keserbagunaannya sebagai sarana untuk memahami penalaran LM.
  • Penggunaan Jalur Penalaran Tidak Berlabel Secara Efektif: Temuan menunjukkan bahwa LM dapat menggunakan jalur penalaran tidak berlabel dengan baik, menyoroti kemungkinan untuk memasukkan gagasan jalan acak ke dalam prosedur pra-pelatihan berkelanjutan LM. Ini menunjukkan bahwa menggunakan metode seperti itu dapat sangat meningkatkan kapasitas model untuk melaksanakan tugas penalaran multi-langkah dalam pengaturan praktis.