AI Umum

Model Kecerdasan Buatan Resolusi Tinggi Griffon v2: Acuan Objek Fleksibel melalui Isyarat Tekstual dan Visual

Pendahuluan

Model Bahasa Visi Besar (LVLMs) telah menunjukkan kinerja luar biasa dalam tugas yang membutuhkan pemahaman teks dan gambar. Kemajuan ini sangat terlihat dalam tugas tingkat wilayah seperti Pemahaman Ekspresi Acuan (REC), setelah perkembangan pemahaman dan penalaran gambar-teks. Model seperti Griffon telah menunjukkan kinerja luar biasa dalam tugas seperti deteksi objek, menunjukkan kemajuan besar dalam persepsi di dalam LVLMs. Perkembangan ini telah mendorong penelitian tambahan tentang penggunaan referensi fleksibel di luar deskripsi tekstual untuk meningkatkan antarmuka pengguna.

Batasan LVLMs

Meskipun ada kemajuan luar biasa dalam persepsi objek berbutir halus, LVLMs tidak dapat mengungguli spesialis tugas khusus dalam skenario kompleks karena batasan resolusi gambar. Pembatasan ini membatasi kapasitas mereka untuk merujuk objek secara efisien dengan isyarat tekstual dan visual, terutama di area seperti Agen GUI dan aktivitas penghitungan.

Griffon v2: Model Resolusi Tinggi

Untuk mengatasi hal ini, tim peneliti telah memperkenalkan Griffon v2, model resolusi tinggi terpadu yang dirancang untuk memberikan acuan objek yang fleksibel melalui isyarat tekstual dan visual.

Proyektor Downsampling

Untuk mengatasi masalah peningkatan resolusi gambar secara efektif, proyektor downsampling yang sederhana dan ringan telah disajikan. Tujuan dari desain proyektor ini adalah untuk mengatasi batasan yang diberikan oleh token input Model Bahasa Besar.

Penanda Visual Plug-and-Play

Pendekatan ini sangat meningkatkan kemampuan persepsi multimodal dengan mempertahankan fitur-fitur halus dan seluruh konteks, terutama untuk hal-hal kecil yang dapat terlewatkan oleh model beresolusi rendah. Tim telah membangun basis ini menggunakan penanda visual plug-and-play dan telah melengkapi Griffon v2 dengan kemampuan ko-referensi bahasa-visual. Fitur ini memungkinkan interaksi dengan berbagai input dengan cara yang mudah digunakan, seperti koordinat, teks bentuk bebas, dan gambar target yang fleksibel.

Kinerja Griffon v2

Griffon v2 telah terbukti efektif dalam berbagai tugas, seperti Pembuatan Ekspresi Acuan (REG), landasan frasa, dan Pemahaman Ekspresi Acuan (REC), menurut data eksperimental. Model ini berkinerja lebih baik dalam deteksi objek dan penghitungan objek dibandingkan model ahli.

Kontribusi Utama

Tim telah merangkum kontribusi utama mereka sebagai berikut:

  • Model Persepsi Multimodal Resolusi Tinggi: Dengan menghilangkan persyaratan untuk membagi gambar, model ini menawarkan metode unik untuk persepsi multimodal yang meningkatkan pemahaman lokal. Kapasitas model untuk menangkap detail kecil telah ditingkatkan dengan kemampuannya untuk menangani resolusi hingga 1K.
  • Struktur Ko-Referensi Bahasa-Visual: Untuk memperluas utilitas model dan mengaktifkan banyak mode interaksi, struktur ko-referensi telah disajikan yang menggabungkan input bahasa dan visual. Fitur ini memungkinkan komunikasi yang lebih mudah beradaptasi dan alami antara pengguna dan model.
  • Evaluasi Eksperimental: Eksperimen ekstensif telah dilakukan untuk memverifikasi efektivitas model pada berbagai tugas lokalisasi. Dalam landasan frasa, Pembuatan Ekspresi Acuan (REG), dan Pemahaman Ekspresi Acuan (REC), kinerja terbaik telah diperoleh. Model ini telah mengungguli model ahli dalam penghitungan objek kuantitatif dan kualitatif, menunjukkan keunggulannya dalam persepsi dan pemahaman.