AI Umum

Evaluasi Model Visi-Bahasa Skala Besar: Benchmark MMStar

Pengantar

Model visi-bahasa skala besar (LVLMs) menunjukkan kemampuan persepsi dan pemahaman visual yang kuat. Kemajuan ini telah menginspirasi komunitas peneliti untuk mengembangkan berbagai tolok ukur multi-modal yang dibangun untuk mengeksplorasi kemampuan kuat yang muncul dari LVLMs dan menyediakan platform komprehensif dan objektif untuk membandingkan model yang terus berkembang secara kuantitatif.

Masalah dalam Evaluasi LVLMs

Namun, setelah evaluasi yang cermat, para peneliti mengidentifikasi dua masalah utama:

  1. Konten visual tidak diperlukan untuk banyak sampel.
  2. Kebocoran data yang tidak disengaja terjadi dalam pelatihan LLM dan LVLM.

Tolok Ukur MMStar

Untuk mengatasi masalah ini, para peneliti dari University of Science and Technology of China, The Chinese University of Hong Kong, dan Shanghai AI Laboratory menyajikan MMStar, tolok ukur multi-modal yang bergantung pada visi yang terdiri dari 1.500 sampel yang dipilih dengan cermat oleh manusia. MMStar mengukur enam kemampuan inti dan 18 sumbu terperinci, yang bertujuan untuk mengevaluasi kapasitas multi-modal LVLMs dengan sampel yang seimbang dan dimurnikan dengan hati-hati.

Proses Kurasi Data

  • Kriteria kurasi data: Sampel evaluasi untuk membangun tolok ukur MMStar harus memenuhi tiga kriteria dasar:
    • Ketergantungan visual
    • Kebocoran data minimal
    • Membutuhkan kemampuan multi-modal tingkat lanjut untuk resolusi
  • Filter data: Untuk pengumpulan sampel, mereka memilih dua tolok ukur yang berfokus pada gambar alami dan empat yang berpusat pada pengetahuan ilmiah dan teknis. Mereka kemudian mengembangkan alur kerja otomatis untuk menyaring sampel yang tidak memenuhi dua kriteria pertama.
  • Tinjauan manual: Setelah penyaringan kasar dengan inspektur LLM, mereka mempekerjakan tiga ahli untuk melakukan proses tinjauan manual untuk memastikan:
    • Jawaban setiap sampel harus didasarkan pada pemahaman konten visual.
    • Sampel yang dipilih harus mencakup berbagai dimensi penilaian kemampuan.
    • Sebagian besar sampel harus mengharuskan LVLMs memiliki kemampuan multi-modal tingkat lanjut untuk resolusi.

Kemampuan Inti

Mereka memilih dan mengkonsolidasikan dimensi yang digunakan untuk menilai kemampuan multi-modal LVLMs dalam tolok ukur yang ada dan mengidentifikasi enam dimensi kemampuan inti dan delapan belas sumbu terperinci.

Keuntungan/Kebocoran Multi-Modal

Mereka mengusulkan dua metrik unik untuk menilai tingkat kebocoran data dan keuntungan kinerja aktual dari proses pelatihan multi-modal.

Evaluasi

Mereka mengevaluasi dua LLM sumber tertutup dan 14 LLM sumber terbuka pada MMStar, dengan pengaturan resolusi tinggi yang dapat mencapai skor rata-rata terbaik 57,1% di antara semua LVLMs. Meningkatkan resolusi dan jumlah token gambar dapat meningkatkan skor rata-rata dari 46,1% menjadi 57,1% untuk GPT4V. Di antara LLM sumber terbuka, InternLMXcomposer2 mencapai skor yang mengesankan sebesar 55,4%. LLaVA-Next bahkan melampaui GPT4V dan GeminiPro-Vision dalam kemampuan inti matematika (MA).

Kesimpulan

Para peneliti meneliti lebih dalam pekerjaan evaluasi untuk LVLMs dan menemukan dua masalah utama: 1) konten visual tidak diperlukan untuk banyak sampel, dan 2) kebocoran data yang tidak disengaja terjadi dalam pelatihan LLM dan LVLM. Mereka mengembangkan tolok ukur multi-modal bergantung pada visi bernama MMStar dan mengusulkan dua metrik untuk mengukur kebocoran data dan keuntungan kinerja aktual dalam pelatihan multi-modal LVLMs. MMStar menjalani tinjauan manual setiap sampel, yang mencakup enam kemampuan inti dan 18 sumbu terperinci untuk evaluasi mendalam tentang kemampuan multi-modal LVLMs. Mengevaluasi 16 LVLMs yang beragam pada MMStar, bahkan model terbaik mendapat skor rata-rata di bawah 60.