AI Umum

Revolusi AI dengan Agen Model Bahasa Besar yang Ditingkatkan: Peningkatan Performa, Efisiensi, dan Keandalan

Pengantar

Perpaduan kecerdasan buatan dan pemahaman seperti manusia selalu menjadi bidang yang menarik, terutama saat memberdayakan model bahasa besar (LLM) untuk berfungsi sebagai agen yang berinteraksi, bernalar, dan membuat keputusan seperti manusia. Dorongan untuk meningkatkan entitas digital ini telah menghasilkan inovasi penting, dengan setiap langkah yang bertujuan membuat mesin lebih membantu dan intuitif dalam aplikasi dunia nyata, dari bantuan otomatis hingga tugas analitis kompleks di berbagai bidang.

Tantangan Agen LLM

Inti dari upaya ini adalah tantangan melengkapi LLM dengan kemampuan agen yang kuat tanpa mengurangi kecerdasan umum dan keserbagunaannya. Inti masalahnya terletak pada penyempurnaan cara melatih model-model ini, melampaui metode tradisional yang sering kali menjerat format data pelatihan dengan proses penalaran agen. Keterikatan seperti itu dapat memiringkan kurva belajar model, membuatnya mahir dalam tugas-tugas tertentu sementara gagal dalam tugas lain, atau lebih buruk lagi, menyebabkannya menghasilkan keluaran yang tidak dapat diandalkan, yang oleh para peneliti disebut halusinasi.

Metode Penyetelan Agen

Penyetelan agen telah berputar di sekitar rekayasa cepat atau penjadwalan kerangka kerja untuk LLM sumber tertutup seperti GPT-4. Terlepas dari fleksibilitas dan hasil yang menonjol, metode ini bergulat dengan hambatan besar, termasuk biaya yang mahal dan masalah keamanan data. LLM sumber terbuka muncul sebagai alternatif yang menjanjikan, namun kinerjanya sebagai agen masih tertinggal di belakang model berbasis API, menyoroti kesenjangan dalam efektivitas dan kesiapan penerapan.

Agent-FLAN: Pendekatan Inovatif

Para peneliti dari University of Science and Technology of China dan Shanghai AI Laboratory memperkenalkan Agent-FLAN, sebuah pendekatan unik dan inovatif yang dirancang untuk mengatasi tantangan di atas. Agent-FLAN merevolusi proses pelatihan dengan mendesain ulang korpus pelatihan dengan cermat. Metode baru ini menyelaraskan proses pelatihan dengan data asli model, memungkinkan lintasan pembelajaran yang lebih alami dan efisien.

Keunggulan Agent-FLAN

Kunci keberhasilan Agent-FLAN terletak pada kemampuannya untuk membedah dan merakit kembali materi pelatihan, dengan fokus pada peningkatan kemampuan agen penting seperti penalaran, mengikuti instruksi, dan, yang terpenting, mengurangi halusinasi. Agent-FLAN memastikan bahwa model belajar secara optimal dan dirancang untuk meningkatkan kemampuan agen mereka dengan mengatasi keterikatan format data dan penalaran dalam proses pelatihan.

Metode fine-tuning ini mengungguli model sebelumnya, menunjukkan peningkatan substansial sebesar 3,5% di berbagai tolok ukur evaluasi agen. Selain itu, Agent-FLAN secara efektif mengurangi masalah halusinasi, meningkatkan keandalan LLM dalam aplikasi praktis. Metode ini memungkinkan LLM, khususnya model Llama2-7B, untuk melampaui kinerja karya terbaik sebelumnya di berbagai kumpulan data evaluasi.

Kesimpulan

Penelitian tentang Agent-FLAN merupakan tonggak penting dalam pengembangan model bahasa besar sebagai agen. Metode ini menetapkan standar baru untuk mengintegrasikan kemampuan agen yang efektif ke dalam LLM dengan mengungkap kompleksitas penyetelan agen. Desain dan eksekusi korpus pelatihan yang cermat, ditambah dengan pendekatan strategis untuk mengatasi perbedaan belajar dan halusinasi, memungkinkan LLM beroperasi dengan akurasi dan efisiensi yang belum pernah terjadi sebelumnya. Agent-FLAN tidak hanya menjembatani kesenjangan antara LLM sumber terbuka dan model berbasis API, tetapi juga memperkaya lanskap kecerdasan buatan dengan model yang lebih serbaguna, andal, dan siap menghadapi tantangan dunia nyata.