AI Umum

Model Visi-Bahasa: Penilaian Menggunakan Matriks Progresif Raven

Pendahuluan

Model Visi-Bahasa (VLM) telah berkembang pesat, seperti yang ditunjukkan oleh kesuksesan GPT4-V dari OpenAI. Studi terbaru menunjukkan bahwa model ini menunjukkan kinerja luar biasa dalam berbagai tugas visi-bahasa, termasuk penjudulan, lokalisasi objek, pengetahuan dunia multimodal, penalaran akal sehat, menjawab pertanyaan visual (VQA), dan pengkodean berbasis visi.

Penilaian Keterbatasan VLM

Studi sebelumnya menunjukkan bahwa VLM canggih (SOTA) berkinerja sangat baik pada berbagai tugas penalaran dan pemahaman berbasis visi. Mereka dapat mengekstrak teks dari gambar secara efektif, memahami dan bernalar dengan data visual, termasuk tabel dan bagan, serta memecahkan masalah matematika visual dasar.

Dalam penelitian terbaru, tim peneliti dari Apple menekankan penilaian keterbatasan VLM, terutama dalam tugas-tugas sulit yang membutuhkan keterampilan deduksi berbasis visi tingkat lanjut. Tim menggunakan Matriks Progresif Raven (RPM) untuk menilai kemampuan VLM dalam penalaran visual yang rumit.

Hasil

RPM dikenal hanya menggunakan isyarat visual untuk mengevaluasi keterampilan penalaran relasional dan deduktif multi-hop seseorang. Menggunakan teknik terkenal seperti pembelajaran dalam konteks, konsistensi diri, dan Rantai Pikiran (CoT), tim mengevaluasi sejumlah VLM terkenal secara menyeluruh pada tiga kumpulan data berbeda: ujian IQ Mensa, IntelligenceTest, dan RAVEN.

Hasilnya menunjukkan perbedaan mencolok antara kinerja Model Bahasa Besar (LLM) yang luar biasa dalam tugas penalaran berbasis teks dan kompetensi VLM dalam penalaran deduktif visual. Tim menemukan bahwa beberapa teknik yang bekerja dengan baik untuk meningkatkan kinerja LLM tidak dapat ditransfer dengan baik ke masalah yang melibatkan penalaran visual.

Studi terperinci mengungkapkan bahwa VLM mengalami kesulitan terutama karena mereka kesulitan mengidentifikasi dan memahami berbagai pola abstrak yang mungkin membingungkan yang terkandung dalam sampel RPM.

Kontribusi Utama

Tim merangkum kontribusi utama mereka sebagai berikut:

  • Pendekatan Evaluasi Sistematis: Tim telah membuat pendekatan sistematis untuk mengevaluasi Model Visi-Bahasa (VLM) pada masalah Matriks Progresif Raven (RPM). Kumpulan data ujian IQ Mensa, IntelligenceTest, dan RAVEN telah digunakan untuk evaluasi, yang memberikan pemahaman menyeluruh tentang kinerja VLM dalam tugas penalaran berbasis gambar.

  • Teknik Waktu Inferensi: Untuk mempelajari potensi VLM, tim telah menggunakan teknik waktu inferensi umum yang ditemukan di LLM, seperti konsistensi diri dan pembelajaran dalam konteks. Ditemukan bahwa beberapa taktik yang bekerja dengan baik di LLM tidak bekerja dengan baik di VLM.

  • Analisis Kinerja: Analisis menyeluruh telah dilakukan terhadap kinerja VLM, memecah kemampuannya menjadi tiga kategori: persepsi, inferensi, dan pengujian hipotesis. Penelitian telah menunjukkan bahwa persepsi adalah hambatan utama dalam VLM yang digunakan saat ini. Masalah persepsi tertentu telah diidentifikasi dalam studi kasus menggunakan GPT-4V.

  • Masalah yang Ditemukan: Sejumlah masalah telah ditemukan dan diperiksa dengan cara kerja VLM saat ini, seperti terlalu percaya diri, sensitivitas terhadap desain prompt, dan kurangnya kapasitas untuk menggunakan contoh dalam konteks secara efektif. Pengaruh prompt telah dievaluasi pada kinerja model melalui manipulasi, dan prompt terstruktur telah disarankan sebagai teknik yang mungkin untuk peningkatan.