AI Umum

Peningkatan Penalaran Matematika LLM dengan OpenMathInstruct-1

Pengantar

Penalaran matematika melibatkan kemampuan untuk memecahkan masalah dan membenarkan solusi secara logis. Bidang ini menjadi dasar pengembangan algoritma, model, dan simulasi yang memecahkan masalah dunia nyata yang kompleks.

Tantangan dalam Meningkatkan Penalaran Matematika LLM

Membuat LLM yang mengkhususkan diri dalam penalaran matematika masih menjadi tantangan karena kelangkaan dataset berkualitas tinggi dan beragam. Sebagian besar dataset yang ada perlu lebih besar untuk mencakup ruang masalah matematika yang luas atau dibebani dengan lisensi terbatas yang menghambat penggunaannya dalam proyek sumber terbuka.

Pendekatan yang Ada

Pendekatan yang ada untuk meningkatkan penalaran matematika dalam LLM terutama bergantung pada dataset sumber tertutup yang dihasilkan oleh LLM komersial seperti GPT-3.5 dan GPT-4. Berbagai teknik seperti Chain-of-Thought, Program of Thought, Self-Consistency, dan Self-Verification telah digunakan untuk meningkatkan kemampuan penalaran matematika LLM.

OpenMathInstruct-1: Dataset Baru untuk Peningkatan Penalaran Matematika

Tim peneliti dari NVIDIA telah memperkenalkan OpenMathInstruct-1, dataset baru yang terdiri dari 1,8 juta pasangan masalah-solusi untuk meningkatkan penalaran matematika dalam LLM. Dataset ini menonjol karena lisensi terbukanya dan penggunaan Mixtral, LLM sumber terbuka, untuk pembuatan data, yang memungkinkan penggunaan tanpa batas dan mendorong inovasi di bidang ini.

Metodologi

OpenMathInstruct-1 disintesis menggunakan kombinasi penskalaan brute-force dan strategi prompting baru dengan model Mixtral. Untuk mensintesis solusi untuk benchmark GSM8K dan MATH, penelitian ini menggunakan prompting few-shot, menggabungkan instruksi, masalah representatif, solusinya dalam format code-interpreter, dan pertanyaan baru dari set pelatihan. Jika LLM dasar menghasilkan solusi yang mengarah pada jawaban yang benar, itu dimasukkan dalam dataset finetuning.

Evaluasi

Model dilatih selama empat epoch, menggunakan pengoptimal AdamW, dan dievaluasi pada benchmark menggunakan decoding serakah dan self-consistency/pemungutan suara mayoritas. Model yang disetel pada campuran 512K instance GSM8K dan MATH yang downsampled, dengan total 1,2 juta, menunjukkan kinerja kompetitif terhadap model gpt-distilled di seluruh tugas matematika.

Kesimpulan

OpenMathInstruct-1 menandai kemajuan signifikan dalam pengembangan LLM untuk penalaran matematika. Dengan menawarkan dataset berskala besar dan berlisensi terbuka, penelitian ini mengatasi keterbatasan dataset yang ada dan menetapkan standar baru untuk penelitian kolaboratif dan dapat diakses di bidang ini. Keberhasilan model OpenMath-CodeLlama-70B menggarisbawahi potensi upaya sumber terbuka untuk mencapai terobosan dalam domain khusus seperti penalaran matematika.