AI Umum

HyperLLaVA: Tingkatkan Model Bahasa Multimodal dengan Pakar Visual dan Bahasa yang Dinamis

Pendahuluan

Model Bahasa Besar (LLM) telah menunjukkan fleksibilitas yang luar biasa dalam menangani berbagai aplikasi yang berpusat pada bahasa. Untuk memperluas kemampuan mereka ke input multimodal, Model Bahasa Besar Multimodal (MLLM) telah mendapat perhatian yang signifikan. Model-model ini sangat penting untuk mengembangkan asisten serba guna yang fleksibel yang dapat memahami informasi dari berbagai modalitas, termasuk teks, gambar, video, dan audio.

LLaVA dan Keterbatasannya

MLLM kontemporer, seperti LLaVA, biasanya mengikuti protokol pelatihan dua tahap:

  1. Penyelarasan Bahasa-Visual, di mana proyektor statis dilatih untuk menyinkronkan fitur visual dengan ruang penyematan kata model bahasa, memungkinkan LLM memahami konten visual.
  2. Penyetelan Instruksi Multimodal, di mana LLM disetel dengan baik pada data instruksi multimodal untuk meningkatkan kemampuannya dalam menanggapi berbagai permintaan pengguna yang melibatkan konten visual.

Meskipun dua tahap ini sangat penting, struktur proyektor dan strategi penyetelan LLM relatif belum dieksplorasi. Sebagian besar penelitian yang ada berfokus pada peningkatan data prapelatihan, data tindak lanjut instruksi, penyandi visual, atau model bahasa. Namun, model yang dipelajari dengan parameter statis dapat membatasi potensi untuk menangani beragam tugas multimodal.

HyperLLaVA: Model Dinamis

Untuk mengatasi keterbatasan ini, para peneliti telah mengusulkan HyperLLaVA, versi dinamis dari LLaVA yang mendapat manfaat dari modul pakar yang dirancang dengan cermat yang berasal dari HyperNetworks, seperti yang diilustrasikan pada Gambar 2. Modul pakar ini menghasilkan parameter dinamis berdasarkan informasi input, memungkinkan model untuk menyesuaikan secara adaptif proyektor dan lapisan LLM untuk kemampuan penalaran yang ditingkatkan di berbagai tugas multimodal.

Pelatihan HyperLLaVA

HyperLLaVA dilatih dalam dua langkah:

  1. Dalam penyelarasan bahasa-visual, proyektor dibagi menjadi lapisan statis (MLP asli di LLaVA) dan lapisan dinamis (pakar visual). Parameter lapisan statis diperbaiki, sedangkan parameter lapisan dinamis dihasilkan secara dinamis berdasarkan input visual. Pakar visual, yang memanfaatkan HyperNetworks, membantu proyektor statis dalam mempelajari proyektor khusus visual yang secara adaptif memodelkan fitur visual sesuai dengan panduan visual. Pendekatan ini memungkinkan proyektor untuk memberikan token visual adaptif ke ruang semantik bahasa.
  2. Pada tahap penyetelan instruksi multimodal, LLM dilengkapi dengan pakar bahasa, yang memodelkan parameter dinamis untuk blok LLM. Output antara LLM dianggap sebagai panduan bahasa yang memandu pakar bahasa dalam memberikan pemahaman khusus instruksi yang lebih baik tentang permintaan pengguna.

Dengan menghasilkan parameter unik untuk setiap input, MLLM meningkatkan fleksibilitasnya, memungkinkannya untuk memanfaatkan kesamaan antara sampel di seluruh kumpulan data dan menghindari potensi interferensi antara sampel dalam kumpulan data yang sama. Pakar bahasa yang diusulkan berfungsi sebagai pendekatan penyetelan yang efisien parameter untuk MLLM, menghasilkan kinerja yang sebanding dengan LLaVA asli sambil meningkatkan kemampuan model untuk menangani beragam tugas multimodal.

Hasil Eksperimen

Dalam eksperimen mereka, para peneliti mengevaluasi HyperLLaVA pada beberapa kumpulan data, termasuk lima kumpulan data VQA (VQAv2, GQA, VizWiz, SQAI, dan VQAT) dan tujuh Toolkit Benchmark (POPE, MME, MMB, MMBCN, SEED, LLaVAW, dan MM-Vet). Hasil yang ditunjukkan pada Tabel 1 menunjukkan bahwa HyperLLaVA mengungguli pendekatan canggih yang ada, termasuk MLLM yang lebih besar dengan miliaran parameter yang dapat dilatih, pada hampir semua skenario multimodal di seluruh tolok ukur ini. Pakar visual dan bahasa ringan yang dirancang dengan cermat memberdayakan proyektor statis dan LLM untuk memfasilitasi tugas multimodal yang berbeda, melampaui kinerja LLaVA asli di 11 dari 12 tolok ukur.

Kesimpulan

Kesimpulannya, strategi penyetelan dinamis HyperLLaVA yang inovatif membuka jalan bagi kemajuan dalam sistem pembelajaran multimodal. Dengan secara adaptif menyetel parameter proyektor dan LLM dan mengintegrasikan pakar visual dan bahasa yang dinamis, para peneliti telah memperkenalkan metodologi efisien parameter yang melampaui tolok ukur kinerja yang ada. Pendekatan ini menawarkan cakrawala baru untuk meningkatkan kinerja tugas multimodal melalui penyesuaian dinamis yang dipersonalisasi, yang berpotensi membuka jalan baru untuk memahami dan mengintegrasikan informasi multimodal dengan lebih mulus.