AI Umum

VideoPrism: Pengode Video Serbaguna untuk Berbagai Tugas Pemahaman Video

Pengantar

Peneliti Google mengatasi tantangan dalam mencapai pemahaman komprehensif tentang konten video yang beragam dengan memperkenalkan model pengode baru, VideoPrism. Model yang ada dalam pemahaman video telah berjuang dengan berbagai tugas dengan sistem yang kompleks dan penalaran yang berpusat pada gerakan dan menunjukkan kinerja yang buruk di berbagai tolok ukur. Para peneliti bertujuan untuk mengembangkan pengode video serbaguna yang secara efektif dapat menangani berbagai tugas pemahaman video dengan adaptasi minimal.

Pendekatan VideoPrism

Model pemahaman video yang ada telah membuat kemajuan yang signifikan tetapi masih kurang. Beberapa model memanfaatkan teks yang terkait dengan video untuk pembelajaran, dan yang lainnya hanya berfokus pada sinyal video, yang membatasi penangkapan isyarat tampilan dan gerakan secara efektif. VideoPrism mengusulkan pendekatan yang mengintegrasikan modalitas video dan teks selama prapelatihan. Ini memperkenalkan kerangka kerja prapelatihan dua tahap yang menggabungkan pembelajaran kontrastif dengan pemodelan video bertopeng. Metode ini memungkinkan model untuk mempelajari representasi semantik dari pasangan video-teks dan data video saja.

Arsitektur VideoPrism didasarkan pada Vision Transformer (ViT) dengan modifikasi untuk faktorisasi ruang-waktu. Selama prapelatihan, model pertama kali menyelaraskan penyematan video dan teks melalui pembelajaran kontrastif dan kemudian melanjutkan pelatihan pada data video saja menggunakan pemodelan video bertopeng. Pendekatan dua tahap ini ditambah dengan distilasi global-lokal dan teknik pengocokan token untuk meningkatkan kinerja model.

Evaluasi

Evaluasi ekstensif di berbagai tugas pemahaman video menunjukkan bahwa VideoPrism mencapai kinerja mutakhir pada 30 dari 33 tolok ukur, menunjukkan generalisasi dan efektivitasnya yang kuat dalam menangkap isyarat tampilan dan gerakan.

Kesimpulan

Peneliti Google mengatasi tantangan dalam membangun model video dasar dengan model mutakhir mereka VideoPrism untuk pemahaman video yang komprehensif. Metode yang diusulkan menggabungkan pembelajaran kontrastif dengan pemodelan video bertopeng dalam kerangka kerja prapelatihan dua tahap, menghasilkan model yang unggul dalam berbagai tugas pemahaman video.