AI Umum

Benchmark Matematika Visual Komprehensif untuk Evaluasi Model Bahasa Besar Multimodal (MLLM)

Pendahuluan

Model Bahasa Besar Multimodal (MLLM) telah menunjukkan performa luar biasa dalam tugas-tugas visual. Namun, kemampuan mereka dalam memecahkan soal matematika visual masih perlu dievaluasi dan dipahami secara mendalam.

Kesenjangan dalam Evaluasi MLLM

Matematika sering kali menyajikan tantangan dalam memahami konsep kompleks dan menafsirkan informasi visual yang penting untuk memecahkan masalah. Dalam konteks pendidikan dan di luarnya, menguraikan diagram dan ilustrasi menjadi sangat penting, terutama saat menangani masalah matematika.

MATHVERSE: Benchmark Matematika Visual

Sebuah tim peneliti dari CUHK MMLab dan Shanghai Artificial Intelligence Laboratory telah mengusulkan “MATHVERSE”, sebuah benchmark inovatif yang dirancang untuk mengevaluasi secara ketat kemampuan MLLM dalam menafsirkan informasi visual dalam soal matematika. Pendekatan ini memperkenalkan berbagai soal matematika yang terintegrasi dengan diagram untuk menguji pemahaman model di luar penalaran tekstual.

Metodologi

MATHVERSE melibatkan MLLM dengan 2.612 soal matematika, masing-masing dilengkapi dengan diagram untuk menguji pemrosesan data visual. Para peneliti dengan cermat mengadaptasi soal-soal ini ke dalam enam format berbeda, mulai dari yang didominasi teks hingga hanya visual, untuk membedah keterampilan analisis multimodal MLLM.

Hasil

Analisis performa menunjukkan keberhasilan yang bervariasi. Beberapa model secara mengejutkan meningkat akurasinya lebih dari 5% saat tidak diberi petunjuk visual, yang menunjukkan ketergantungan yang lebih kuat pada teks daripada visual. Secara khusus, GPT-4V menunjukkan kecakapan yang seimbang dalam modalitas teks dan visual, menawarkan wawasan komprehensif tentang kemampuan dan keterbatasan MLLM saat ini dalam menangani pertanyaan visual dan matematika.

Kesimpulan

Evaluasi pada MATH VERSE menyoroti bahwa, sementara model seperti Qwen-VL-Max dan InternLM-XComposer2 mengalami peningkatan performa (peningkatan akurasi lebih dari 5%) tanpa input visual, GPT-4V menunjukkan ketepatan yang lebih baik dalam mengintegrasikan informasi visual, mendekati performa tingkat manusia dalam skenario hanya teks. Variasi ini menggarisbawahi ketergantungan pada teks daripada visual di antara MLLM, dengan GPT-4V muncul sebagai pengecualian penting karena pemahaman visualnya yang komparatif.

Secara keseluruhan, penelitian ini mengusulkan benchmark khusus yang disebut MATHVERSE untuk menilai kapasitas pemecahan masalah matematika visual dari MLLM. Temuan ini mengungkapkan bahwa sebagian besar model yang ada membutuhkan input visual untuk memahami diagram matematika dan bahkan dapat berkinerja lebih baik. Hal ini menunjukkan kebutuhan penting akan penyandi penglihatan khusus matematika yang lebih canggih, yang menyoroti potensi arah pengembangan MLLM di masa depan.