AI Umum

Dataset Multimodal ArXiv: Meningkatkan Pemahaman Ilmiah Model Visi-Bahasa

Pengantar

Model Visi-Bahasa Besar (LVLMs) menggabungkan Model Bahasa Besar (LLM) dan pengode gambar yang canggih. Model seperti GPT-4 dan sistem model visi-bahasa besar lainnya telah menunjukkan kemampuan luar biasa dalam tugas yang melibatkan gambar dunia nyata dari situasi alami, menandai perkembangan signifikan dalam bidang Kecerdasan Buatan (AI). Model hibrida ini menunjukkan kombinasi luar biasa dari kemampuan persepsi dan kognitif yang membangkitkan kognisi seperti manusia, menunjukkan kemampuan luar biasa dalam menafsirkan dan berinteraksi dengan gambar dunia nyata.

Namun, meskipun memiliki berbagai bakat, LVLMs mengalami kesulitan dalam menangani ide-ide abstrak, terutama dalam disiplin ilmu seperti fisika dan matematika yang membutuhkan penalaran abstrak tingkat tinggi. Keterbatasan ini terutama disebabkan oleh fakta bahwa selama periode pelatihan mereka, mereka tidak terpapar data khusus domain, khususnya data yang mencakup gambar abstrak dan rumit yang sering ditemukan dalam literatur ilmiah.

Dataset Multimodal ArXiv

Untuk mengatasi hal ini, sebuah tim peneliti telah memperkenalkan strategi baru yang disebut Multimodal ArXiv, yang merupakan upaya ekstensif untuk meningkatkan pemahaman LVLMs terhadap materi ilmiah. Hal ini memanfaatkan banyaknya data yang tersedia di repositori arXiv, yang dikenal memiliki perpustakaan besar pracetak ilmiah di berbagai bidang ilmiah.

Pembuatan ArXivCap, dataset ekstensif dengan gambar ilmiah yang dipilih dengan baik dan keterangan yang informatif, merupakan proyek utama dari upaya ini. Berbeda dengan dataset sebelumnya yang menggunakan gambar AI atau terbatas pada tugas keterangan sederhana terkait ilmu komputer, ArXivCap menyediakan kumpulan gambar akademis nyata yang lebih kaya dan lebih bervariasi dari berbagai disiplin ilmu. Ini mempertahankan integritas struktural subgambar dan menggabungkan judul makalah asli, dengan 6,4 juta gambar dan 3,9 juta keterangan yang bersumber dari 572.000 publikasi, menjadikannya dasar yang kuat untuk berbagai tugas evaluasi.

Untuk lebih meningkatkan kegunaan dataset ini, kumpulan besar 100.000 kombinasi pertanyaan pilihan ganda-jawaban yang dibuat khusus untuk gambar di ArXivCap telah diproduksi menggunakan GPT-4V. Dengan tantangan spesifik yang meniru pengaturan pemecahan masalah ilmiah dunia nyata, fitur yang disebut ArXivQA ini diharapkan memainkan peran penting dalam meningkatkan kemampuan penalaran ilmiah LVLMs.

Evaluasi dan Hasil

Tim telah membagikan bahwa efektivitas pendekatan Multimodal ArXiv telah diperiksa secara menyeluruh, dengan penilaian berpusat pada dua metrik kinerja utama: kapasitas model untuk penalaran, seperti yang ditunjukkan oleh akurasi mereka pada tugas tanya jawab, dan kemampuan generatif mereka, seperti yang ditunjukkan dalam tugas yang mirip dengan pembuatan keterangan. Penambahan dataset ArXivQA menghasilkan peningkatan kinerja yang signifikan, seperti yang terlihat pada peningkatan akurasi yang nyata pada MathVista, tolok ukur yang dibuat khusus untuk menilai kemampuan penalaran matematika multimodal. Ini menyoroti bagaimana pelatihan khusus domain dapat secara signifikan meningkatkan kinerja LVLM.

Studi tentang ArXivCap telah memudahkan pembuatan empat tantangan generatif lainnya, yang semuanya memiliki tingkat kesulitan yang berbeda dan dimaksudkan untuk mengevaluasi seberapa baik model dapat memahami dan mengekspresikan ide-ide ilmiah dalam bahasa. Kegiatan ini dapat sesederhana memberi keterangan pada satu gambar atau secanggih membuat ringkasan dan judul berdasarkan pasangan gambar-keterangan. Pengujian ekstensif, termasuk evaluasi model milik sendiri dan sumber terbuka seperti GPT-4V dan Bard, telah menunjukkan bahwa sementara pelatihan khusus pada dataset ArXivCap menghasilkan peningkatan yang signifikan, LVLMs saat ini masih kesulitan untuk menafsirkan dan menggambarkan gambar ilmiah secara akurat.

Kesimpulan

Tim telah membagikan bahwa evaluasi kesalahan manual telah menunjukkan bahwa LVLMs masih memiliki kesulitan dengan beberapa aspek pemahaman visual dan produksi keterangan, seperti kesalahan interpretasi konteks visual, pengenalan yang tidak akurat, dan kecenderungan untuk menyederhanakan keterangan yang dihasilkan. Hasil ini menunjukkan di mana kemajuan telah dibuat dan menunjukkan jalan ke depan untuk studi masa depan yang akan mencoba untuk mengatasi hambatan yang tersisa untuk membantu LVLMs memahami konten ilmiah lebih dalam.