AI Umum

Google Memperkenalkan VAI: Model Bahasa Visual untuk Pemahaman Antarmuka Pengguna (UI) dan Infografis

Memadukan Pemahaman Visual untuk Komunikasi yang Efektif

Infografis telah menjadi alat komunikasi yang sangat efektif karena kemampuannya dalam mengatur dan memanfaatkan elemen visual secara strategis untuk memperjelas informasi. Elemen visual ini mencakup grafik, diagram, peta, bagan, dan desain dokumen. Teknik ini telah menjadi metode yang telah teruji waktu untuk meningkatkan pemahaman konten.

Di era digital modern, antarmuka pengguna (UI) pada perangkat seluler dan desktop memiliki kesamaan desain dan elemen visual dengan infografis. Meskipun ada banyak tumpang tindih antar UI dan infografis, kerumitan masing-masing bidang mempersulit pembuatan model yang kohesif.

Kesulitan muncul dalam mengembangkan model tunggal yang dapat secara efektif memahami dan menafsirkan informasi visual yang dikodekan dalam infografis dan UI. Kompleksitas yang melekat dalam memahami, bernalar, dan berinteraksi dengan beragam elemen infografis dan UI menghalangi pembuatan model seperti itu.

VAI: Model Bahasa Visual

Untuk mengatasi tantangan ini, tim peneliti Google baru-baru ini mengusulkan VAI sebagai solusi. VAI adalah Model Bahasa Visual (VLM) yang mampu memahami UI dan infografis secara komputasional. Cakupannya mencakup tugas-tugas seperti menjawab soal grafis (GA), yang dapat melibatkan teks, gambar, peta, dan banyak lagi.

Tim tersebut telah mendemonstrasi kemampuan VAI dalam menangani tugas-tugas seperti anotasi elemen, klasifikasi, pencarian, dan QA khusus UI. Model ini mengombinasikan metode pencocokan fitur yang dipinjam dari Pik2struct dengan Prompt Tuning, yang memungkinkannya menangani tugas terkait visi dengan menerjemahkannya menjadi tugas teks atau gambar-ke-teks.

Hasil yang Menjanjikan

Eksperimen telah dilakukan untuk mengevaluasi dampak dari pilihan desain ini pada kinerja model. Dalam evaluasi tersebut, VAI menetapkan tolok ukur baru pada tugas-tugas seperti Multipage DocV QA, WebSRC, MoTIF, dan CaptioningWidget dengan parameter di kisaran 5 miliar. Model ini mencapai kinerja yang sebanding dengan tugas-tugas seperti DocV QA, InfographicV QA, dan QA Teks, memicu model dengan ukuran yang sebanding.

Kontribusi dan Sumber Daya

Tim telah merilis dataset baru, yang terdiri dari Anotasi Layar, QA Singkat, dan QA Panjang. Salah satu dataset ini berfokus secara khusus pada tugas anotasi layar untuk penelitian lebih lanjut, sementara dua dataset yang terakhir berpusat pada menjawab soal, memperluas sumber daya yang tersedia untuk memicu kemajuan di bidang ini.

Kesimpulan

Tim merangkum kontribusi utamanya sebagai:

  • Konsep Model Bahasa Visual (VLM) VAI merupakan langkah menuju solusi holistik untuk pemahaman infografis dan UI.
  • VAI memanfaatkan kesamaan dalam representasi visual dan desain canggih dari elemen-elemen ini, menawarkan pendekatan terpadu untuk memahami konten digital.
  • Pengembangan representasi tekstual untuk UI adalah kemajuan yang signifikan. Representasi ini telah dimanipulasi untuk melatih model memahami UI, meningkatkan kemampuannya untuk memahami dan memperoses informasi visual.
  • VAI memanfaatkan Prompt Tuning dan representasi UI baru untuk membuat data pelatihan secara otomatis dalam skala besar, membuat pelatihan lebih efisien dan efektif.
  • Tiga dataset baru, Anotasi Layar, QA Singkat, dan QA Panjang, telah dirilis. Dataset ini memungkinkan pembandingan model yang komparatif untuk menjawab soal berbasis layar dan representasi tekstual yang diusulkan.
  • VAI telah mengungguli model yang lebih besar dengan faktor sepuluh atau lebih pada empat tolok ukur QA infografis publik, meskipun jumlah parameternya hanya 4,6 miliar.