AI Umum

VisualWebArena: Benchmark untuk Mengevaluasi Kinerja Agen Web Multimodal

Pendahuluan

Kecerdasan Buatan (AI) memiliki tujuan jangka panjang untuk mengotomatiskan operasi komputer sehari-hari menggunakan agen otonom. Agen otonom berbasis web dengan kemampuan bernalar, merencanakan, dan bertindak adalah cara potensial untuk mengotomatiskan berbagai operasi komputer. Namun, hambatan utama untuk mencapai tujuan ini adalah menciptakan agen yang dapat mengoperasikan komputer dengan mudah, memproses input tekstual dan visual, memahami perintah bahasa alami yang kompleks, dan melakukan aktivitas untuk mencapai tujuan yang telah ditentukan sebelumnya. Sebagian besar tolok ukur yang ada saat ini di bidang ini sebagian besar berfokus pada agen berbasis teks.

VisualWebArena: Benchmark untuk Agen Web Multimodal

Untuk mengatasi tantangan ini, tim peneliti dari Carnegie Mellon University telah memperkenalkan VisualWebArena, tolok ukur yang dirancang dan dikembangkan untuk mengevaluasi kinerja agen web multimodal pada tantangan yang realistis dan merangsang secara visual. Tolok ukur ini mencakup berbagai tantangan berbasis web yang kompleks yang menilai beberapa aspek kemampuan agen multimodal otonom. Di VisualWebArena, agen dituntut untuk membaca input gambar-teks secara akurat, menguraikan instruksi bahasa alami, dan melakukan aktivitas di situs web untuk mencapai tujuan yang ditentukan pengguna.

Evaluasi Agen Web Multimodal

Evaluasi komprehensif telah dilakukan pada agen otonom Large Language Model (LLM) yang paling canggih, yang mencakup banyak model multimodal. Agen LLM khusus teks ditemukan memiliki keterbatasan tertentu melalui analisis kuantitatif dan kualitatif. Kesenjangan dalam kemampuan agen bahasa multimodal paling canggih juga telah diungkapkan, sehingga menawarkan informasi yang mendalam.

Karakteristik VisualWebArena

Tim telah membagikan bahwa VisualWebArena terdiri dari 910 aktivitas realistis dalam tiga lingkungan daring yang berbeda, yaitu Reddit, Belanja, dan Iklan Baris. Sementara lingkungan Belanja dan Reddit dibawa dari WebArena, lingkungan Iklan Baris merupakan tambahan baru pada data dunia nyata. Tidak seperti WebArena, yang tidak memiliki kebutuhan visual ini, semua tantangan yang ditawarkan di VisualWebArena terkenal karena berlabuh secara visual dan membutuhkan pemahaman menyeluruh tentang konten untuk resolusi yang efektif. Karena gambar digunakan sebagai input, sekitar 25,2% dari tugas memerlukan pemahaman interleaving.

Perbandingan Model Bahasa Besar dan Model Bahasa-Visi

Studi ini telah membandingkan secara menyeluruh Model Bahasa Besar (LLM) dan Model Bahasa-Visi (VLM) terkini dalam hal otonomi mereka. Hasilnya menunjukkan bahwa VLM yang kuat mengungguli LLM berbasis teks pada tugas-tugas VisualWebArena. Agen VLM dengan pencapaian tertinggi telah menunjukkan tingkat keberhasilan 16,4%, yang secara signifikan lebih rendah daripada kinerja manusia sebesar 88,7%. Perbedaan penting antara agen VLM bersumber terbuka dan berbasis API juga telah ditemukan, yang menyoroti perlunya metrik penilaian yang menyeluruh.

Agen VLM yang Unik

Agen VLM unik juga telah disarankan, yang mengambil inspirasi dari strategi pendorong Set-of-Marks. Pendekatan baru ini telah menunjukkan manfaat kinerja yang signifikan, terutama pada halaman web yang kompleks secara grafis, dengan menyederhanakan ruang tindakan. Dengan mengatasi kekurangan agen LLM, agen VLM ini telah menawarkan cara yang mungkin untuk meningkatkan kemampuan agen otonom dalam konteks web yang kompleks secara visual.

Kesimpulan

VisualWebArena adalah solusi luar biasa untuk menyediakan kerangka kerja untuk menilai agen bahasa otonom multimodal serta menawarkan pengetahuan yang dapat diterapkan pada pembuatan agen otonom yang lebih kuat untuk tugas-tugas daring.