AI Umum

Memaksimalkan Potensi Model Visi-Bahasa: Memperkenalkan VISION-FLAN untuk Penyetelan Instruksi Visual Unggul dan Penguasaan Tugas Beragam

Tantangan Model Visi-Bahasa

Model visi-bahasa (VLM) yang canggih telah menghasilkan asisten AI yang mengesankan yang mampu memahami dan merespons teks dan gambar. Namun, model ini masih memiliki keterbatasan yang sedang diatasi oleh para peneliti. Dua tantangan utama adalah:

  • Keragaman Tugas Terbatas: Banyak VLM yang ada dilatih pada tugas yang sempit dan disetel pada kumpulan data instruksi yang disintesis oleh model bahasa besar. Hal ini dapat menyebabkan generalisasi yang buruk dan keluaran yang tidak terduga atau salah.
  • Bias Data Sintetis: Kumpulan data yang dibuat oleh model bahasa besar dapat menimbulkan kesalahan dan bias, menyebabkan respons VLM menyimpang dari preferensi manusia.

VISION-FLAN: Dataset Penyetelan yang Komprehensif

Untuk mengatasi tantangan ini, para peneliti telah mengembangkan VISION-FLAN, sebuah kumpulan data baru yang inovatif yang dirancang untuk menyempurnakan VLM pada berbagai tugas. Yang membuat VISION-FLAN unik adalah keragamannya. Kumpulan data ini berisi pilihan 187 tugas yang dikurasi dengan cermat dari kumpulan data akademis, yang mencakup semuanya mulai dari deteksi objek dan klasifikasi gambar hingga analisis grafik yang kompleks dan penalaran geometris (Gambar 1).

Para peneliti menggunakan proses anotasi yang ketat untuk memastikan kualitas dan konsistensi VISION-FLAN. Anotator ahli dipilih berdasarkan kualifikasi mereka, dan setiap tugas dirancang dengan hati-hati dengan instruksi yang jelas dan divalidasi untuk kebenarannya.

Kerangka Penyetelan Dua Tahap

Para peneliti telah menggunakan VISION-FLAN dalam kerangka penyetelan dua tahap yang baru:

  • Tahap 1: Membangun Kemahiran Tugas
    VLM pertama kali dilatih pada seluruh kumpulan data VISION-FLAN, belajar menangani berbagai masalah visual dan berbasis bahasa. Ini menghasilkan model VISION-FLAN BASE.
  • Tahap 2: Penyelarasan dengan Preferensi Manusia
    Model VISION-FLAN BASE selanjutnya disetel pada kumpulan data kecil instruksi yang disintesis GPT-4 untuk mengajarkannya cara menghasilkan respons yang lebih rinci dan bermanfaat yang sesuai dengan apa yang sebenarnya diharapkan manusia. Ini menghasilkan model VISION-FLAN CHAT akhir.

Hasil yang Menjanjikan

Hasilnya sangat menarik (Tabel 2). Ketika dievaluasi pada berbagai tolok ukur dunia nyata, VISION-FLAN BASE mengungguli VLM canggih lainnya pada berbagai tugas sekaligus mengurangi respons yang salah atau menyesatkan. VISION-FLAN CHAT membangun fondasi yang kuat ini dan, hanya dengan sedikit data sintetis, lebih meningkatkan kualitas respons, menyelaraskannya lebih dekat dengan ekspektasi manusia.

Poin Penting

VISION-FLAN menyoroti pentingnya keragaman tugas dan fokus pada manusia dalam pengembangan VLM:

  • Keragaman Penting: Mengekspos VLM ke berbagai tantangan selama pelatihan meningkatkan kemampuan mereka secara keseluruhan dan membuat mereka lebih tangguh.
  • Manusia Masih Penting: Meskipun model bahasa besar seperti GPT-4 dapat mensintesis instruksi, penting untuk menggunakan data berlabel manusia untuk memastikan respons yang bermanfaat dan akurat.

Kesimpulan

VISION-FLAN adalah langkah maju yang besar untuk pemodelan visi-bahasa, menunjukkan bahwa pelatihan pada kumpulan tugas yang beragam dan terkurasi dengan baik dapat menghasilkan asisten AI yang lebih dapat digeneralisasi dan andal. Pekerjaan ini juga memiliki beberapa keterbatasan, seperti berfokus pada bahasa Inggris dan tugas gambar tunggal, tetapi memberikan wawasan berharga dan dasar untuk penelitian di masa mendatang. Arah potensial yang menarik termasuk model multibahasa, tugas multi-gambar atau video, dan mengeksplorasi arsitektur VLM yang beragam.