AI Umum

Peningkatan Model Bahasa-Visual dengan Keterangan Sintetis dan Penyertaan Gambar oleh Peneliti dari Google DeepMind

Pendahuluan

Model Bahasa-Visual (VLM) merupakan alat yang ampuh untuk memahami data visual dan tekstual, yang menjanjikan kemajuan dalam tugas-tugas seperti peneterangan gambar dan menjawab pertanyaan visual. Namun, ketersediaan data yang terbatas menghambat kinerja mereka.

Tantangan dalam Pembuatan Data untuk VLM

Studi terbaru menunjukkan bahwa pra-pelatihan VLM pada kumpulan data gambar-teks yang lebih besar meningkatkan tugas-tugas hilir. Namun, pembuatan kumpulan data tersebut menghadapi tantangan: kelangkaan data berpasangan, biaya kurasi yang tinggi, keragaman yang rendah, dan data bersumber dari internet yang bising.

Pendekatan Sintetis

Studi sebelumnya menunjukkan efektivitas VLM dalam tugas-tugas seperti peneterangan gambar, menggunakan arsitektur yang beragam dan strategi pra-pelatihan. Kemajuan terbaru dalam generator gambar berkualitas tinggi telah memicu minat dalam penggunaan model generatif untuk pembuatan data sintetis. Tren ini berdampak pada berbagai tugas visi komputer, termasuk segmentasi semantik, pemahaman gerakan manusia, dan klasifikasi gambar.

Synth2: Peningkatan VLM dengan Data Sintetis

Peneliti dari Google DeepMind telah mengusulkan Synth2. Metode ini memanfaatkan model teks dan gambar generatif yang telah dilatih sebelumnya untuk membuat data berpasangan sintetis untuk VLM, mengatasi tantangan kelangkaan data, biaya, dan kebisingan. Ini menghasilkan teks dan gambar secara sintetis, menghindari ketergantungan pada data dunia nyata. Pendekatan ini beroperasi pada tingkat penyertaan, melewati perenderan ruang piksel yang mahal, sehingga meningkatkan efisiensi tanpa mengorbankan kinerja. Pra-pelatihan model teks-ke-gambar pada kumpulan data yang sama yang digunakan untuk pelatihan VLM memastikan evaluasi yang adil dan mencegah transfer pengetahuan yang tidak diinginkan.

Arsitektur Synth2

Arsitektur VLM Synth2 mengintegrasikan tulang punggung VQ-GAN untuk interaksi yang efisien dengan penyertaan gambar yang dihasilkan secara sintetis, melewati pemrosesan ruang piksel dan memungkinkan pelatihan yang mulus. Selain itu, komponen Perceiver Resampler memfasilitasi perhatian silang antara token VQ dan token bahasa dalam VLM, membantu dalam representasi multimodal yang efektif.

Evaluasi dan Hasil

Dalam mengevaluasi gambar sintetis untuk pelatihan VLM, Synth2 secara signifikan meningkatkan kinerja dibandingkan dengan garis dasar, bahkan dengan volume gambar beranotasi manusia yang lebih kecil. Gambar sintetis secara efektif menggantikan gambar asli, meningkatkan kemampuan VLM. Synth2 juga mengungguli metode canggih seperti ITIT dan DC, mencapai hasil yang kompetitif dengan penggunaan data dan sumber daya komputasi yang lebih sedikit. Ini menyoroti efektivitas dan efisiensi Synth2 dalam meningkatkan kinerja VLM.

Kesimpulan

Peneliti dari Google DeepMind telah mengusulkan Synth2, yang menggunakan pasangan gambar-teks sintetis untuk meningkatkan pelatihan VLM. Hasil menunjukkan peningkatan kinerja VLM dibandingkan dengan garis dasar, dengan efisiensi data dan skalabilitas yang ditingkatkan. Metode ini menawarkan penyesuaian untuk domain tertentu dan mengatasi tantangan akuisisi data yang intensif sumber daya. Temuan ini menggarisbawahi potensi pembuatan data sintetis dalam memajukan pemahaman bahasa visual, menunjukkan jalan untuk eksplorasi lebih lanjut.