AI Umum

Penilaian Kemampuan Perencanaan AI di Dunia Nyata: TravelPlanner

Pendahuluan

Mengembangkan agen AI dengan kemampuan perencanaan seperti manusia merupakan tantangan yang menarik. Kemampuan tersebut akan memungkinkan agen-agen ini menavigasi skenario dunia nyata yang kompleks, sebuah tugas yang masih sulit dikuasai. Upaya perencanaan AI tradisional terutama berfokus pada lingkungan terkontrol dengan variabel dan hasil yang dapat diprediksi. Namun, sifat dunia nyata yang tidak dapat diprediksi, dengan banyak kendala dan variabel, menuntut pendekatan perencanaan yang jauh lebih canggih.

TravelPlanner: Tolok Ukur Komprehensif

Para peneliti dari Fudan University, Ohio State University, Pennsylvania State University, dan Meta AI telah mengembangkan TravelPlanner, tolok ukur komprehensif yang dirancang untuk menilai keterampilan perencanaan agen AI dalam situasi yang lebih nyata. TravelPlanner bukan sekadar kumpulan data; ini adalah tempat pengujian yang dibuat dengan cermat yang mensimulasikan tugas perencanaan perjalanan yang beragam.

Skenario Perencanaan Perjalanan

TravelPlanner menantang agen AI dengan skenario yang biasa ditangani manusia: mengatur rencana perjalanan selama beberapa hari. Ini melibatkan penyeimbangan berbagai faktor dalam kebutuhan pengguna yang ditentukan, seperti kendala anggaran, preferensi akomodasi, dan logistik transportasi.

Lingkungan Kotak Pasir

Keunggulan TravelPlanner menyediakan lingkungan kotak pasir yang diperkaya dengan hampir empat juta catatan data, termasuk informasi terperinci tentang kota, atraksi, akomodasi, dan banyak lagi. Agen AI harus menggunakan kekayaan data ini untuk menyusun rencana perjalanan yang sesuai dengan batasan yang telah ditentukan, seperti tetap dalam anggaran atau memilih akomodasi yang ramah hewan peliharaan.

Kinerja Agen AI

Meskipun kecanggihan teknologi AI saat ini, kinerja agen pada tolok ukur TravelPlanner sangat sederhana. Misalnya, bahkan model canggih seperti GPT-4, yang dilengkapi dengan kemampuan pemrosesan bahasa mutakhir, hanya mencapai tingkat keberhasilan 0,6%. Hasil ini menggarisbawahi kesenjangan yang cukup besar antara kemampuan perencanaan AI saat ini dan tuntutan manajemen tugas dunia nyata.

Implikasi untuk Penelitian AI

Pengenalan TravelPlanner merupakan momen penting dalam penelitian AI. Ini menggeser fokus dari tugas perencanaan tradisional yang dibatasi ke domain pemecahan masalah dunia nyata yang lebih luas dan lebih kompleks. Tolok ukur ini menyoroti keterbatasan model AI saat ini dalam menangani tugas perencanaan yang dinamis dan beragam serta menetapkan arah baru untuk penelitian masa depan.

Kesimpulan

TravelPlanner menawarkan platform yang unik dan menantang untuk memajukan kemampuan perencanaan AI. Pengenalannya ke lapangan merupakan tolok ukur untuk kinerja AI dan pedoman yang memandu upaya di masa depan. Saat AI terus berkembang, upaya untuk menjembatani kesenjangan antara model perencanaan teoretis dan aplikasi praktisnya dalam skenario dunia nyata tetap menjadi batas utama dalam penelitian. TravelPlanner berada di garis depan perjalanan yang menarik ini.