AI Umum

Model Visi dan Kecerdasan AI Multimoda Terbuka Sumber yang Mengesankan: EVA-CLIP-18B

Pendahuluan
Model Bahasa Besar (LMM) telah berkembang pesat belakangan ini, menggunakan CLIP sebagai penyandi visi untuk representasi visual yang andal dan LLM sebagai alat serbaguna untuk penalaran di berbagai moda. Namun, meskipun LLM telah berkembang menjadi lebih dari 100 miliar parameter, model visi yang mereka andalkan perlu lebih besar, sehingga menghambat potensi mereka. Penskalaan bahasa-gambar kontrastif (CLIP) sangat penting untuk meningkatkan model visi dan multimoda, menjembatani kesenjangan dan memungkinkan penanganan tipe data yang beragam secara lebih efektif.

EVA-CLIP-18B: Model CLIP Terbuka Sumber Terbesar

Para peneliti dari Akademi Kecerdasan Buatan Beijing dan Universitas Tsinghua telah meluncurkan EVA-CLIP-18B, model CLIP terbuka sumber terbesar yang pernah ada, dengan 18 miliar parameter. Meskipun dilatih hanya pada 6 miliar sampel, model ini mencapai akurasi zero-shot top-1 yang mengesankan sebesar 80,7% pada 27 tolok ukur klasifikasi gambar, melampaui model sebelumnya seperti EVA-CLIP. Khususnya, kemajuan ini dicapai dengan dataset sederhana yang terdiri dari 2 miliar pasangan gambar-teks, yang tersedia secara terbuka dan lebih kecil dari yang digunakan dalam model lain. EVA-CLIP-18B menunjukkan potensi penskalaan model visual lemah-ke-kuat gaya EVA, dengan harapan dapat memupuk penelitian lebih lanjut dalam model dasar visi dan multimoda.

Penskalaan Model Visi Lemah-ke-Kuat
EVA-CLIP-18B, model CLIP 18 miliar parameter, dilatih pada dataset 2 miliar pasangan gambar-teks dari LAION-2B dan COYO-700M. Mengikuti EVA dan EVA-CLIP, model ini menggunakan paradigma lemah-ke-kuat, di mana model EVA-CLIP yang lebih kecil menginisialisasi model EVA-CLIP yang lebih besar, sehingga menstabilkan dan mempercepat proses belajar. Evaluasi pada 33 dataset, termasuk klasifikasi gambar dan video serta pengambilan gambar-teks, menunjukkan efektivitasnya. Proses penskalaan melibatkan penyulingan pengetahuan dari model EVA-CLIP kecil ke model EVA-CLIP yang lebih besar, dengan dataset belajar yang sebagian besar tetap untuk menunjukkan efektivitas filosofi penskalaan. Khususnya, pendekatan ini menghasilkan peningkatan kinerja berkelanjutan, yang menunjukkan efektivitas penskalaan lemah-ke-kuat yang progresif.

Kinerja Luar Biasa pada Berbagai Tugas Berbasis Gambar
EVA-CLIP-18B, dengan 18 miliar parameter, menunjukkan kinerja luar biasa pada berbagai tugas berbasis gambar. Model ini mencapai akurasi zero-shot top-1 yang mengesankan sebesar 80,7% pada 27 tolok ukur klasifikasi gambar, melampaui pendahulunya dan model CLIP lainnya secara signifikan. Selain itu, probing linier pada ImageNet-1K mengungguli pesaing seperti InternVL-C dengan akurasi top-1 rata-rata 88,9. Pengambilan gambar-teks zero-shot pada dataset Flickr30K dan COCO mencapai rata-rata recall sebesar 87,8, secara signifikan melampaui pesaing. EVA-CLIP-18B menunjukkan ketahanan pada berbagai jenis ImageNet, menunjukkan keserbagunaan dan kinerja tinggi pada 33 dataset yang banyak digunakan.

Implikasi yang Luas
Sebagai kesimpulan, EVA-CLIP-18B adalah model CLIP terbuka sumber terbesar dan berkinerja terbaik, dengan 18 miliar parameter. Menerapkan EVA pada penskalaan visi lemah-ke-kuat mencapai akurasi zero-shot top-1 yang luar biasa pada 27 tolok ukur klasifikasi gambar. Pendekatan penskalaan ini secara konsisten meningkatkan kinerja tanpa mencapai saturasi, sehingga mendorong batas kemampuan model visi. Khususnya, EVA-CLIP-18B menunjukkan ketahanan dalam representasi visual, mempertahankan kinerja pada berbagai jenis ImageNet, termasuk yang bersifat adversarial. Keserbagunaan dan efektivitasnya ditunjukkan pada berbagai dataset, mulai dari klasifikasi gambar, pengambilan gambar-teks, dan tugas klasifikasi video, menandakan kemajuan signifikan dalam kemampuan model CLIP.