AI Umum

Model Bahasa 7B Umum Telah Memiliki Kemampuan Matematika yang Kuat

Model Bahasa yang Mengesankan

Model Bahasa Besar (LLM) telah menunjukkan kemampuan yang mengesankan di hampir setiap domain. Dari menghasilkan konten unik seperti manusia, menjawab pertanyaan hingga meringkas paragraf tekstual yang besar, menyelesaikan kode, dan menerjemahkan bahasa, LLM adalah salah satu kemajuan terbaik di bidang Kecerdasan Buatan (AI).

Kemampuan Matematika LLM

Namun, secara umum diyakini bahwa agar model bahasa memiliki kemampuan matematika yang hebat, model tersebut harus sangat luas dalam skala atau melalui proses pra-pelatihan yang ketat yang melibatkan matematika. Sebuah penelitian terbaru menantang gagasan ini dengan menunjukkan bahwa model LLaMA-2 7B telah menunjukkan kemampuan matematika yang luar biasa, bahkan dengan pra-pelatihan standar.

Akurasi Matematika yang Tinggi

Model ini dapat memilih respons optimal dari 256 generasi acak dengan tingkat akurasi yang luar biasa, yaitu 97,7% dan 72,0% pada tolok ukur GSM8K dan MATH, masing-masing.

Hambatan Model Dasar

Masalah utama dengan model dasar yang ada adalah bahwa meskipun dapat menghasilkan jawaban yang akurat dengan akurasi tinggi, model tersebut tidak dapat secara andal membangkitkan kemampuan matematika bawaannya. Penurunan akurasi yang cukup besar menjadi 49,5% dan 7,9% pada tolok ukur GSM8K dan MATH, masing-masing, ketika hanya berfokus pada respons pertama, menekankan perbedaan ini.

Meningkatkan Akurasi dengan Penyetelan Halus

Untuk mengatasi masalah ini, tim telah menyarankan untuk meningkatkan data penyetelan halus yang diawasi (SFT). Akurasi respons yang dihasilkan dapat sangat ditingkatkan dengan meningkatkan jumlah data yang digunakan untuk penyetelan halus. Namun, kurangnya soal matematika yang tersedia untuk umum membatasi potensi skalabilitas skala besar.

Menggunakan Data Sintetis

Tim telah menggunakan data sintetis, yang berfungsi hampir sama baiknya dengan data nyata, untuk mengatasi batasan ini. Tim telah membuat soal matematika fiktif dengan model GPT-4 Turbo dan telah menemukan bahwa penggunaan GPT-4 Turbo untuk verifikasi setelah menerapkan pendekatan pembuatan dasar menghasilkan hasil yang sangat efisien.

Penskalaan Data Penyetelan Halus

Penggunaan soal matematika yang dibuat secara artifisial memungkinkan penskalaan data penyetelan halus yang diawasi secara besar, dengan akurasi dunia nyata yang hampir sama. Dengan menggunakan metode sederhana ini, tim mampu meningkatkan akurasi secara nyata. Mereka mencapai akurasi 82,6% pada GSM8K dan akurasi 40,6% pada MATH menggunakan model LLaMA-2 7B, yang melebihi akurasi model sebelumnya masing-masing sebesar 14,2% dan 20,8%.

Perilaku Penskalaan

Penelitian ini juga menawarkan wawasan tentang perilaku penskalaan di berbagai jenis kesalahan dan kesulitan penalaran. Analisis ini memperjelas metode untuk mengurangi kesalahan selama proses penskalaan dan membantu memahami bagaimana kinerja model berubah seiring dengan peningkatan volume data.

Kesimpulan

Kesimpulannya, penelitian ini menunjukkan bahwa model bahasa dapat mencapai kemampuan matematika yang sangat baik tanpa memerlukan model skala besar atau pra-pelatihan yang intensif. Kemajuan yang cukup besar dalam bidang pemecahan masalah matematika dengan model bahasa dapat dibuat dengan memanfaatkan data sintetis dan meningkatkan jumlah penyetelan halus yang diawasi.