AI Umum

Integrasi Perspektif Makro dan Mikro dalam MLLM untuk Peningkatan Kinerja Tugas Visi-Bahasa

Pendahuluan

Model Bahasa Besar (LLM) telah merevolusi pemrosesan bahasa alami (NLP) dalam beberapa tahun terakhir. Model seperti ChatGPT dan GPT-4 dari OpenAI telah menunjukkan kecakapan yang luar biasa dalam memahami dan menghasilkan teks seperti manusia.

Multi-Modal Large Language Models (MLLM)

MLLM, seperti MiniGPT-4, LLaVA, dan InstructBLIP, telah muncul sebagai pendekatan yang menjanjikan dengan mengintegrasikan pemahaman tekstual dengan kemampuan pemahaman visual. Namun, mengintegrasikan informasi visual secara efektif tetap menjadi tantangan utama bagi MLLM.

Strategi DualFocus

Terinspirasi oleh proses kognitif manusia, peneliti mengusulkan strategi DualFocus untuk MLLM, yang mencerminkan cara individu biasanya memindai gambar secara global sebelum berfokus pada detail yang relevan untuk menjawab pertanyaan. Strategi ini melibatkan:

  • Menganalisis seluruh gambar untuk memahami konteks makro
  • Mengidentifikasi area penting
  • Memperbesar area tersebut untuk pemeriksaan mendetail

Implementasi

Untuk mengoperasionalkan strategi DualFocus, peneliti membuat kumpulan data baru dari Visual Genome (VG), yang memilih gambar dan anotasi yang selaras dengan protokol fokus ganda. Selama pelatihan model, MLLM belajar membedakan koordinat relevan yang menentukan subwilayah penting untuk pertanyaan apa pun.

Evaluasi

Evaluasi eksperimental menunjukkan keefektifan DualFocus, menunjukkan peningkatan yang signifikan dibandingkan model dasar seperti LLaVA 1.5 dan Qwen-VL-Chat. Selain itu, pengurangan respons halusinasi pada MLLM menunjukkan potensi kerangka kerja ini untuk mempertahankan perspektif yang seimbang saat menghasilkan teks.

Kesimpulan

Strategi DualFocus merupakan kemajuan signifikan dalam pemahaman bahasa multi-modal. Dengan mengintegrasikan pemrosesan visual dan tekstual secara koheren dan efisien, MLLM yang dilengkapi dengan mekanisme ini menunjukkan peningkatan kinerja dalam berbagai tugas, mulai dari tolok ukur tanya jawab visual (VQA) tradisional hingga tantangan multi-modal yang lebih kompleks.