AI Umum

CoLLaVO: Terobosan AI KAIST dalam Model Bahasa Visi yang Meningkatkan Pemahaman Gambar Tingkat Objek

Pengantar

Model Bahasa Visi (VLM) berevolusi menuju model serba guna yang mengandalkan kemampuannya untuk memahami gambar dan menjalankan tugas melalui instruksi bahasa alami. Namun, perlu diperjelas apakah VLM saat ini benar-benar memahami informasi objek mendetail dalam gambar. Analisis menunjukkan bahwa pemahaman gambar mereka sangat berkorelasi dengan kinerja tanpa pengambilan sampel (zero-shot) pada tugas bahasa visi. Ini menunjukkan bahwa memprioritaskan pemahaman gambar dasar adalah kunci agar VLM unggul.

CoLLaVO: Meningkatkan Pemahaman Tingkat Objek

Terlepas dari kemajuan terbaru, VLM terkemuka masih kesulitan memahami objek secara mendetail, yang memengaruhi kinerja mereka pada tugas terkait. Meningkatkan pemahaman tingkat objek VLM sangat penting untuk meningkatkan kinerja tugas mereka secara keseluruhan.

Para peneliti dari KAIST telah mengembangkan CoLLaVO, sebuah model yang menggabungkan kemampuan bahasa dan visi untuk meningkatkan pemahaman gambar tingkat objek. Dengan memperkenalkan Crayon Prompt, yang memanfaatkan peta warna panoptik untuk mengarahkan perhatian ke objek, dan menggunakan Dual QLoRA untuk menyeimbangkan pembelajaran dari instruksi krayon dan petunjuk visual, CoLLaVO mencapai kemajuan substansial dalam tugas bahasa visi tanpa pengambilan sampel. Pendekatan inovatif ini mempertahankan pemahaman tingkat objek sekaligus meningkatkan kinerja tugas yang kompleks.

Arsitektur dan Pelatihan CoLLaVO

Arsitektur CoLLaVO mengintegrasikan penyandi visi, Crayon Prompt, MLM tulang punggung, dan konektor MLP. Penyandi visi, CLIP, membantu pemahaman gambar, sementara MLM, InternLM-7B, mendukung penyetelan instruksi multibahasa. Crayon Prompt, yang dihasilkan dari peta warna panoptik, menggabungkan kueri semantik dan penomoran untuk mewakili objek dalam gambar. Penyetelan Crayon Prompt (CPT) menyelaraskan petunjuk ini dengan MLM untuk meningkatkan pemahaman tingkat objek. Penyetelan Instruksi Berbasis Crayon Prompt (CIT) memanfaatkan kumpulan data penyetelan instruksi visual dan instruksi krayon untuk tugas VL yang kompleks. Dual QLoRA mengelola pemahaman tingkat objek dan kinerja VL selama pelatihan untuk mempertahankan kedua kemampuan secara efektif.

Hasil dan Dampak

Kemampuan pemahaman gambar VLM saat ini ditemukan sangat berkorelasi dengan kinerja tanpa pengambilan sampel mereka pada tugas bahasa visi. Ini menunjukkan bahwa memprioritaskan pemahaman gambar dasar sangat penting bagi VLM untuk unggul dalam tugas bahasa visi.

CoLLaVO menggabungkan penyetelan instruksi dengan Crayon Prompt, skema penyetelan petunjuk visual berdasarkan peta warna panoptik. CoLLaVO mencapai lompatan signifikan dalam berbagai tolok ukur bahasa visi dalam pengaturan tanpa pengambilan sampel, menunjukkan pemahaman gambar tingkat objek yang ditingkatkan. Studi ini menyebutkan skor yang terpuji yang dicapai di semua tugas tanpa pengambilan sampel, yang menunjukkan efektivitas model.

Kesimpulan

CoLLaVO menunjukkan kinerja luar biasa di berbagai tugas bahasa visi, berkat fitur inovatifnya seperti Crayon Prompt dan Dual QLoRA. CoLLaVO mencapai hasil terbaik dengan ukuran model yang relatif ringkas dengan mengintegrasikan pemahaman gambar tingkat objek secara efektif. Ini melampaui VLM sumber tertutup dan sumber terbuka dalam mengurangi halusinasi, menunjukkan pemahamannya yang unggul tentang konteks gambar. Temuan ini menyoroti pentingnya memprioritaskan pemahaman tingkat objek dalam desain VLM, membuktikan efektivitasnya bahkan di tengah tren peningkatan skala model dan pembuatan kumpulan data penyetelan instruksi khusus.