AI Umum

ToolVerifier: Meningkatkan Performa Panggilan Alat untuk LLM dengan Metode Generasi dan Verifikasi Mandiri

Integrasi Alat Eksternal ke dalam Model Bahasa

Integrasi alat eksternal ke dalam model bahasa (LM) merupakan kemajuan penting dalam menciptakan asisten digital yang serbaguna. Integrasi ini meningkatkan fungsionalitas model dan mendorongnya lebih dekat ke visi AI tujuan umum. Namun, ambisi ini menghadapi tantangan yang signifikan: evolusi alat dan API yang cepat mengharuskan LM beradaptasi dengan cepat ke alat baru dan pembaruan parameter tanpa pelatihan ulang yang ekstensif atau campur tangan manusia.

Tantangan dalam Generalisasi Kemampuan Penggunaan Alat

Kendala utama dalam upaya ini adalah kemampuan model untuk menggeneralisasi kemampuan penggunaan alat mereka ke alat baru yang tidak terlihat berdasarkan contoh terbatas. Metode tradisional telah membuat kemajuan dalam menggabungkan alat tertentu ke dalam LM melalui fine-tuning contoh nyata atau sintetis. Namun, model ini harus ditingkatkan ketika menerapkan keterampilan yang dipelajari ke alat baru, sering kali dibatasi oleh jendela konteks model yang terbatas dan beragamnya alat.

ToolVerifier: Metode Verifikasi Mandiri untuk Peningkatan Penggunaan Alat

Tim peneliti kolaboratif dari Meta dan University of California San Diego memperkenalkan ToolVerifier, metode verifikasi mandiri baru untuk menyempurnakan pemilihan alat dan pembuatan parameter dalam LM. ToolVerifier dengan cermat membedakan antara alat yang terkait erat dan menyempurnakan pilihan parameter dengan mengajukan pertanyaan kontrastif, memastikan aplikasi alat yang lebih akurat dan sesuai konteks.

Metodologi ToolVerifier

Metodologi di balik ToolVerifier terungkap dalam dua tahap utama: pemilihan alat dan pembuatan parameter. Awalnya, diberikan instruksi pengguna, model menyaring pustaka alat untuk mengidentifikasi yang paling tepat untuk tugas yang sedang dikerjakan. Selanjutnya, ia menghasilkan parameter yang diperlukan untuk menjalankan fungsi alat yang dipilih secara efektif.

Penggunaan Inovatif Pertanyaan Verifikasi yang Dihasilkan Sendiri

Penggunaan inovatif ToolVerifier dari pertanyaan verifikasi yang dihasilkan sendiri pada setiap tahap membedakannya. Ini mempertajam proses pengambilan keputusan dengan mempersempit pilihan yang bersaing ketat, mengurangi kemungkinan kesalahan propagasi. Pendekatan ini diuji secara ketat pada benchmark ToolBench, yang terdiri dari beragam alat kehidupan nyata yang dienkapsulasi dalam empat tugas berbeda: Cuaca, Kucing, Rumah, dan Pemesanan.

Hasil Eksperimen

ToolVerifier menunjukkan peningkatan yang luar biasa dibandingkan dengan baseline few-shot tradisional, menunjukkan peningkatan kinerja rata-rata sebesar 22% di seluruh tugas yang melibatkan 17 alat yang tidak terlihat. Mekanisme verifikasi mandiri saja menghasilkan peningkatan sebesar 8%, menggarisbawahi keefektifannya dalam menyempurnakan penggunaan alat oleh LM.

Kesimpulan

ToolVerifier memajukan integrasi alat ke dalam LM dan membuka jalan baru untuk menciptakan asisten AI yang dapat menavigasi perangkat digital yang terus berkembang di era digital dengan fleksibilitas dan akurasi yang belum pernah terjadi sebelumnya. Penelitian ini membuka jalan bagi eksplorasi masa depan ke dalam kemampuan generalisasi LM, menjanjikan cakrawala di mana AI dapat secara adaptif memanfaatkan beragam alat digital untuk melakukan banyak tugas, bergerak lebih dekat ke cita-cita asisten tujuan umum yang sebenarnya.