AI Umum

MouSi: Sistem PoliVisual Baru yang Meniru Sifat Kompleks dan Multi-Dimensi dari Pemrosesan Visual Biologis

Tantangan Model Visi-Bahasa Besar (VLM) Saat Ini

  • Keterbatasan kemampuan komponen visual individual
  • Masalah yang timbul dari token visual yang terlalu panjang
  • Kendala pada kemampuan model untuk menafsirkan informasi visual yang kompleks dan detail kontekstual yang panjang

Pendekatan Baru: Menggabungkan Keahlian Pakar Visual

  • Menggunakan teknik pakar ansambel untuk menyinergikan kekuatan pengkode visual individual
  • Meliputi keterampilan dalam pencocokan gambar-teks, OCR, segmentasi gambar, dan lainnya
  • Memanfaatkan jaringan fusi untuk menyelaraskan pemrosesan keluaran dari berbagai pakar visual
  • Menjembatani kesenjangan antara pengkode gambar dan model bahasa yang telah dilatih sebelumnya (LLM)

Menangani Kekurangan Pengkode CLIP

  • Ketidakmampuan menangkap faktor spasial dasar dalam gambar secara andal
  • Kerentanan terhadap halusinasi objek

Pertanyaan Penting: Memanfaatkan Kekuatan Pakar Visual Ganda

  • Bagaimana cara memanfaatkan kekuatan beberapa pakar visual untuk meningkatkan kinerja secara sinergis?
  • Mengadopsi perspektif pakar poli-visual, mirip dengan operasi sistem visual vertebrata

Kekhawatiran Utama dalam Mengembangkan VLM dengan Pakar Poli-Visual

  • Efektivitas pakar poli-visual
  • Integrasi optimal dari beberapa pakar
  • Mencegah melampaui panjang maksimum LLM dengan beberapa pakar visual

Evaluasi Efektivitas Pakar Poli-Visual dalam VLM

  • Membangun kumpulan kandidat yang terdiri dari enam pakar terkenal, termasuk CLIP, DINOv2, LayoutLMv3, Convnext, SAM, dan MAE
  • Menggunakan LLaVA-1.5 sebagai pengaturan dasar
  • Menjelajahi kombinasi pakar tunggal, pakar ganda, dan pakar tiga kali lipat di sebelas tolok ukur
  • Hasil menunjukkan bahwa dengan semakin banyaknya pakar visual, VLM memperoleh informasi visual yang lebih kaya (dikaitkan dengan lebih banyak saluran visual), yang mengarah pada peningkatan keseluruhan dalam batas atas kemampuan multimodal di berbagai tolok ukur

Mengatasi Masalah Urutan Fitur Gambar yang Panjang

  • Menjelajahi berbagai skema pengkodean posisi yang bertujuan untuk mengurangi masalah yang terkait dengan urutan fitur gambar yang panjang
  • Mengatasi masalah yang terkait dengan luapan posisi dan batasan panjang
  • Mengurangi hunian posisi dalam model seperti SAM secara substansial, dari 4096 menjadi 64 yang lebih efisien dan mudah dikelola atau bahkan hingga 1

Kinerja VLM dengan Beberapa Pakar vs. Pengkode Visual Terisolasi

  • Kinerja VLM yang menggunakan beberapa pakar secara konsisten lebih unggul dibandingkan dengan pengkode visual yang terisolasi
  • Integrasi pakar tambahan menandai peningkatan kinerja yang signifikan, menyoroti efektivitas pendekatan ini dalam meningkatkan kemampuan model visi-bahasa

Kesimpulan

  • Pendekatan polivisual secara signifikan meningkatkan kinerja VLM, melampaui akurasi dan kedalaman pemahaman yang dicapai oleh model yang ada
  • Hasil yang ditunjukkan sejalan dengan hipotesis bahwa perakitan pengkode ahli yang kohesif memang dapat membawa peningkatan substansial dalam kemampuan VLM untuk menangani input multimodal yang rumit
  • Menggunakan pakar visual yang berbeda membuat VLM bekerja lebih baik
  • Pendekatan ini dapat mengubah cara kita menyatukan visi dan bahasa di masa depan