AI Umum

CLoVe: Meningkatkan Komposisionalitas Model Visi-Bahasa

Pengantar

Model Visi-Bahasa (VLM) telah menunjukkan kemajuan yang signifikan dalam tugas-tugas Visi-Bahasa. Namun, model-model ini masih kesulitan mengomposisikan konsep-konsep yang diketahui dengan cara yang baru karena representasi teks yang tidak memperhatikan urutan kata.

Metode yang Ada

Metode yang ada seperti NegCLIP dan REPLACE bertujuan untuk meningkatkan kemampuan komposisional dalam VLM. Namun, metode ini sering kali mengorbankan kinerja dalam tugas pengenalan yang berpusat pada objek seperti ImageNet.

CLoVe

Peneliti dari University of Michigan – Ann Arbor dan Netflix telah mengusulkan metode baru, CLoVe, yang meningkatkan pengodean bahasa komposisional dalam model dua menara yang ada sambil mempertahankan kinerja pada tolok ukur standar. Metode ini mencapai hal ini melalui tiga kontribusi utama:

  • Memanfaatkan kurasi data untuk memengaruhi penanganan pengetahuan komposisional
  • Memasukkan pelatihan dengan negatif yang sulit untuk peningkatan tambahan
  • Menggunakan patching model untuk mempertahankan kinerja pada tugas sebelumnya

Hasil

CLoVe secara signifikan meningkatkan komposisionalitas pada model visi-bahasa yang dilatih secara kontrastif. CLoVe mempertahankan komposisionalitas yang ditingkatkan sambil memulihkan kinerja pada fungsi yang didukung oleh model yang telah dilatih sebelumnya, sehingga secara efektif memajukan kemampuan VLM tanpa mengorbankan kinerja secara keseluruhan.

Kesimpulan

CLoVe adalah kerangka kerja yang meningkatkan komposisionalitas dalam VLM yang telah dilatih secara kontrastif sambil mempertahankan kinerja pada tugas lain. Dengan menyempurnakan model dengan teks negatif yang sulit dan memanfaatkan gambar yang diberi keterangan secara sintetis, CLoVe mencapai peningkatan yang signifikan. Hasil eksperimen menunjukkan efektivitasnya di berbagai tolok ukur, yang menggarisbawahi pentingnya kualitas data, penggunaan negatif yang sulit, dan patching model untuk meningkatkan kemampuan VLM.