AI Umum

Dataset API-BLEND: Sumber Pelatihan dan Pengujian Sistematis LLM Berbasis Alat

Pengantar

Integrasi API ke dalam Model Bahasa Besar (LLM) merupakan lompatan signifikan dalam pengembangan sistem AI yang sangat fungsional, yang mampu melakukan tugas kompleks seperti pemesanan hotel atau lamaran pekerjaan melalui antarmuka percakapan. Namun, kemajuan ini bergantung pada kemampuan LLM untuk mendeteksi API secara akurat, mengisi parameter yang diperlukan, dan mengurutkan panggilan API berdasarkan ucapan pengguna.

Dataset API-BLEND

Hambatan dalam mencapai kemampuan ini adalah kurangnya data pelatihan dan pembandingan dunia nyata yang beragam, yang sangat penting bagi model untuk menggeneralisasi dengan baik di luar domain pelatihannya. Untuk mengatasi hal ini, penelitian ini memperkenalkan kumpulan data baru bernama API-BLEND (Gambar 2), yang menandai perbedaan signifikan dari ketergantungan pada data yang dihasilkan secara sintetis, yang sering mengalami masalah seperti bias dan kurangnya keragaman.

API-BLEND adalah kumpulan data hibrida yang diperkaya oleh data anotasi manusia dan generasi yang dibantu LLM, mencakup lebih dari 178.000 contoh di seluruh fase pelatihan, pengembangan, dan pengujian. Kumpulan data ini unik dalam skalanya dan berfokus pada tugas pengurutan—aspek penting yang sering diabaikan dalam kumpulan data yang ada.

API-BLEND menawarkan beragam tugas terkait API yang belum pernah ada sebelumnya dengan menggabungkan data dari berbagai domain seperti penguraian semantik, dialog, dan bantuan digital.

Inovasi API-BLEND

Inti dari inovasi API-BLEND terletak pada pendekatan komprehensifnya terhadap kurasi data, yang mencakup generasi yang dibantu model bahasa, generasi berbasis tata bahasa, dan penyertaan langsung dari kumpulan data yang sudah jadi. Strategi multifaset ini memastikan perpaduan yang kaya dari urutan API, parameter, dan konteks, yang bertujuan untuk mengatasi kompleksitas penggunaan API dunia nyata di LLM.

Kumpulan data ini mencakup urutan yang berasal dari dialog yang ada, diubah menjadi panggilan API melalui model canggih seperti FLAN-T5-XXL, dan selanjutnya diperkaya oleh transformasi berbasis aturan tata bahasa dan kumpulan data yang sudah ada yang diadaptasi untuk evaluasi urutan API.

Evaluasi Empiris

Evaluasi empiris telah memposisikan API-BLEND sebagai alat pelatihan dan pembandingan yang unggul dibandingkan dengan kumpulan data lainnya, dengan model yang dilatih pada API-BLEND menunjukkan generalisasi di luar domain (OOD) yang jauh lebih baik. Hal ini dibuktikan dengan kinerja model yang disetel dengan baik dengan data API-BLEND di berbagai tes OOD, di mana model tersebut mengungguli LLM yang ditingkatkan API lainnya, menunjukkan kemampuan mereka yang ditingkatkan untuk menavigasi kompleksitas integrasi API.

Selain itu, API-BLEND telah diuji secara ketat terhadap sembilan model sumber terbuka di berbagai pengaturan, termasuk pengujian beberapa bidikan, penyesuaian instruksi pada kumpulan data target, dan penyesuaian kumpulan data gabungan. Hasilnya menggarisbawahi keandalan API-BLEND dalam melatih model yang unggul dalam deteksi API, pengisian parameter, dan pengurutan—kritis untuk menjalankan tugas kompleks melalui AI percakapan.

Kesimpulan

Singkatnya, API-BLEND muncul sebagai sumber daya penting untuk mengembangkan dan menguji LLM yang ditingkatkan alat, menjembatani kesenjangan antara keterbatasan data sintetis dan kebutuhan untuk penerapan di dunia nyata. Dengan menawarkan korpus yang beragam dan komprehensif, API-BLEND memajukan model bahasa terintegrasi API yang canggih dan menetapkan standar keragaman dan utilitas kumpulan data baru. Saat bidang ini bergerak maju, eksplorasi interaksi lingkungan dan perintah API multibahasa mewakili jalan menarik untuk lebih meningkatkan kepraktisan dan jangkauan sistem AI yang ditingkatkan API.