AI Umum

VideoMamba: Model AI Berbasis SSM Murni untuk Pemahaman Video yang Efisien

Pemahaman Video

Pemahaman video adalah domain kompleks yang melibatkan penguraian dan penafsiran konten visual dan dinamika temporal dalam urutan video. Metode tradisional seperti jaringan saraf konvolusional 3D (CNN) dan transformator video telah membuat kemajuan signifikan, tetapi sering kali kesulitan untuk mengatasi redundansi lokal dan ketergantungan global secara efektif.

VideoMamba

Di sinilah VideoMamba berperan, mengusulkan pendekatan baru dengan memanfaatkan kekuatan Model Ruang Keadaan (SSM) yang dirancang khusus untuk data video. VideoMamba dimotivasi oleh tantangan pemodelan konteks spasiotemporal dinamis secara efisien dalam video berdurasi panjang dan beresolusi tinggi. VideoMamba menonjol dengan menggabungkan keunggulan mekanisme konvolusi dan perhatian dalam kerangka Model Ruang Keadaan, menawarkan solusi kompleksitas linier untuk pemodelan konteks dinamis. Desain ini memastikan skalabilitas tanpa pelatihan awal yang ekstensif, meningkatkan sensitivitas untuk mengenali tindakan jangka pendek yang bernuansa, dan mengungguli metode tradisional dalam pemahaman video jangka panjang. Selain itu, arsitektur VideoMamba memungkinkan kompatibilitas dengan modalitas lain, menunjukkan ketahanannya dalam konteks multi-modal.

Cara Kerja

VideoMamba mulai dengan memproyeksikan video input ke dalam tambalan spasiotemporal yang tidak tumpang tindih menggunakan konvolusi 3D. Tambalan ini kemudian ditambah dengan penyisipan posisi, kemudian melewati serangkaian blok Mamba dua arah bertumpuk (B-Mamba) (ditunjukkan pada Gambar 2). Teknik pemindaian dua arah Spasial-Pertama yang unik (ditunjukkan pada Gambar 3) yang digunakan oleh VideoMamba memastikan pemrosesan yang efisien, memungkinkannya menangani video panjang dengan resolusi tinggi dengan cekatan.

Evaluasi dan Hasil

Dievaluasi di berbagai tolok ukur, termasuk Kinetics-400, Something-Something V2, dan ImageNet-1K, VideoMamba telah menunjukkan kinerja yang luar biasa. Model ini telah mengungguli model yang ada seperti TimeSformer dan ViViT dalam mengenali tindakan jangka pendek dengan perbedaan gerakan yang mendetail dan menafsirkan video panjang melalui pelatihan ujung-ke-ujung. Kehebatan VideoMamba meluas ke pemahaman video jangka panjang, di mana pendekatan pelatihan ujung-ke-ujungnya secara signifikan mengungguli metode berbasis fitur tradisional. Pada kumpulan data yang menantang seperti Breakfast, COIN, dan LVU, VideoMamba menunjukkan akurasi yang unggul dan membanggakan peningkatan 6 kali lipat dalam kecepatan pemrosesan dan pengurangan 40 kali lipat dalam penggunaan memori GPU untuk video 64-frame, yang menggambarkan efisiensinya yang luar biasa.

Selain itu, VideoMamba membuktikan keserbagunaannya melalui peningkatan kinerja dalam konteks multi-modal, unggul dalam tugas pengambilan video-teks, terutama dalam skenario kompleks yang melibatkan urutan video yang lebih panjang.

Kesimpulan

Kesimpulannya, VideoMamba mewakili lompatan signifikan dalam pemahaman video, mengatasi tantangan skalabilitas dan efisiensi yang telah menghambat model sebelumnya. Penerapan baru Model Ruang Keadaan untuk data video menyoroti potensi untuk penelitian dan pengembangan lebih lanjut di bidang ini. Meskipun kinerjanya menjanjikan, eksplorasi skalabilitas VideoMamba, integrasi dengan modalitas tambahan, dan kombinasi dengan model bahasa besar untuk pemahaman video yang komprehensif tetap menjadi upaya masa depan. Namun demikian, fondasi yang diletakkan oleh VideoMamba adalah bukti lanskap analisis video yang terus berkembang dan potensi yang berkembang pesat dalam berbagai aplikasi.