AI Umum

Model Visi-Bahasa yang Disempurnakan dengan Rantai Manipulasi: Langkah Menuju Penalaran Visual yang Akurat dan Keterlacakan Kesalahan

Pendahuluan

Model Visi-Bahasa (VLM) yang besar yang dilatih untuk memahami penglihatan telah menunjukkan kelayakan dalam berbagai skenario seperti menjawab pertanyaan visual, landasan visual, dan pengenalan karakter optik, memanfaatkan kekuatan Model Bahasa Besar (LLM) dalam pengetahuan umum dunia.

Manipulasi untuk Penalaran Visual

Manusia menandai atau memproses foto yang disediakan untuk kenyamanan dan ketelitian untuk mengatasi tantangan visual yang rumit; proses ini dikenal sebagai manipulasi. Dalam putaran pelatihan awal, sebagian besar VLM mempelajari banyak kemampuan multimodal intrinsik, seperti kotak landasan dan pengenalan kata. Model dapat melakukan penalaran visual berdasarkan bukti untuk pemecahan masalah dengan meniru perilaku dasar seperti manusia (misalnya, memotong, memperbesar). Namun, pendekatan ini untuk pelatihan model tidak digunakan karena dua kendala utama.

Rantai Manipulasi

Sebuah studi baru oleh Universitas Tsinghua dan Zhipu AI mengeksplorasi Rantai Manipulasi (CoM), sebuah mekanisme generik yang memungkinkan VLM untuk melakukan penalaran visual berdasarkan bukti. VLM memperoleh berbagai konten visual (misalnya, kotak, pesan, gambar) dengan menerapkan urutan manipulasi pada input visual.

Pembuatan Data Otomatis

Mereka awalnya membuat platform pembuatan data otomatis berdasarkan korpus pertanyaan-jawaban gambar yang sudah ada sebelumnya. Seorang pencatat linguistik dengan akses ke serangkaian manipulasi diminta untuk memberikan langkah-langkah penalaran untuk pertanyaan tertentu, dan alat visual dasar digunakan untuk mendapatkan pengembalian yang sesuai yang diminta oleh manipulasi tersebut.

Pelatihan VLM

Selanjutnya, para peneliti menemukan semua kemungkinan pengembalian manipulasi dan melakukan penelusuran pada pohon yang dihasilkan untuk menemukan semua kemungkinan jalur yang, jika digabungkan, mengarah ke jawaban yang benar. Untuk membangun keterampilan multimodal yang umum dan penalaran, mereka menawarkan CogCoM, VLM 17B yang dilatih dengan arsitektur yang kompatibel dengan memori dan perpaduan empat kategori data berdasarkan data yang dihasilkan.

Penilaian

Untuk mencapai kesimpulannya, model menggunakan penalaran untuk secara aktif mengadopsi berbagai modifikasi untuk mendapatkan konten visual (seperti gambar baru img1) dan wilayah referensi bbx1 dan bbx2. Mereka juga menyajikan tempat pengujian dengan masalah visual terperinci yang melibatkan proses penalaran dan ukuran kesadaran poin-kunci untuk menyelidiki keakuratan hasil akhir dan proses penyelesaian karena sumber daya evaluasi langka.

Hasil

Tim melakukan uji coba komprehensif pada delapan tolok ukur yang mencakup tiga kelas kemampuan: landasan visual (RefCOCO, RefCOCO+, dan RefCOCOg), validasi halusinasi (POPE), dan tolok ukur pemeriksaan penalaran yang disarankan (AutoCoM-test). Hasilnya menunjukkan bahwa metodologi secara konsisten memberikan kinerja yang kompetitif atau lebih baik.

Diskusi

Menurut penyelidikan pada tempat pengujian yang diusulkan, dengan menggabungkan rantai penalaran yang dihasilkan, CogCoM dengan cepat mencapai kinerja yang kompetitif hanya dengan beberapa langkah pelatihan. Tim menemukan bahwa proses solusi bahasa kurang bervariasi dan alat visual tidak selalu akurat, yang mengarah ke banyak jalur yang tidak menguntungkan (meskipun memanfaatkannya dengan baik akan berguna). Mereka merekomendasikan untuk menyoroti batasan ini dengan pengingat khusus dan alat bantu visual yang ditingkatkan. Selain itu, model mereka saat ini mungkin mengalami penurunan kinerja karena memasukkan kembali foto yang diubah menggunakan instruksi yang ketat. Menggabungkan manipulasi fisik ke dalam perhitungan ruang vektor diharapkan dapat meningkatkan hal ini.

Kesimpulan

Para peneliti percaya bahwa proses penalaran visual yang disarankan dapat mempercepat pengembangan VLM di bidang pemecahan masalah visual yang rumit. Selain itu, sistem pembuatan data yang telah diperkenalkan berpotensi digunakan dalam berbagai skenario pelatihan, yang dapat membantu memajukan pembelajaran mesin berbasis data.