AI Umum

LUMOS: Kerangka Pelatihan Agen Bahasa Terbuka dan Umum

Bayangkan memiliki asisten digital yang tidak hanya dapat menjawab pertanyaan Anda, tetapi juga menavigasi web, menyelesaikan soal matematika yang rumit, menulis kode, dan bahkan bernalar tentang gambar dan permainan berbasis teks. Kedengarannya terlalu bagus untuk menjadi kenyataan? Nah, bersiaplah karena masa depan kecerdasan buatan baru saja menjadi jauh lebih mudah diakses dan transparan dengan diperkenalkannya LUMOS. Dalam perkembangan yang inovatif, para peneliti dari Allen Institute for AI, UCLA, dan University of Washington telah meluncurkan LUMOS, sebuah kerangka kerja sumber terbuka yang menjanjikan untuk merevolusi cara kita berinteraksi dengan agen bahasa. Tidak seperti solusi sumber tertutup yang ada yang sering terasa seperti kotak hitam, LUMOS menawarkan tingkat keterjangkauan, transparansi, dan reproduktifitas yang belum pernah terjadi sebelumnya, menjadikannya pengubah permainan di dunia AI. Tetapi apa sebenarnya LUMOS, dan mengapa hal itu menyebabkan kehebohan di komunitas AI? Bersiaplah, karena kita akan membahas detail penting dari inovasi luar biasa ini, mengeksplorasi cara kerjanya, apa yang dapat dilakukannya, dan mengapa hal ini lebih penting dari yang Anda kira. **Arsitektur Modular LUMOS**

Agen bahasa saat ini sering kali mengandalkan model bahasa sumber tertutup yang besar seperti GPT-4 atau ChatGPT sebagai komponen inti. Meskipun kuat, model ini mahal, membutuhkan lebih banyak transparansi, dan memberikan reproduktifitas dan pengendalian yang terbatas. Kerangka kerja LUMOS mengambil pendekatan berbeda dengan menggunakan model bahasa besar (LLM) sumber terbuka sebagai model dasar. Ini menggunakan arsitektur terpadu dan modular yang terdiri dari tiga komponen utama: modul perencanaan, modul landasan, dan modul eksekusi. Modul perencanaan menguraikan tugas yang kompleks menjadi urutan sub-tujuan tingkat tinggi yang dinyatakan dalam bahasa alami. Misalnya, untuk pertanyaan multimodal seperti “Perangkat di tangannya berasal dari negara mana?”, modul perencanaan mungkin menghasilkan dua sub-tujuan: “Identifikasi merek perangkat” dan “Jawab negara dari merek perangkat”. Modul landasan kemudian menerjemahkan sub-tujuan tingkat tinggi ini menjadi tindakan tingkat rendah yang dapat dieksekusi yang dapat dieksekusi oleh berbagai alat dalam modul eksekusi. Misalnya, sub-tujuan pertama dapat didasarkan pada tindakan seperti “VQA(
img>, Apa mereknya..?)” untuk mengidentifikasi merek perangkat dari gambar menggunakan alat tanya jawab visual. Modul eksekusi berisi kumpulan alat siap pakai, termasuk API, model saraf, dan simulator virtual, yang dapat menjalankan tindakan yang didasarkan. Hasil dari tindakan yang dieksekusi ini kemudian diumpankan kembali ke modul perencanaan dan landasan, memungkinkan perilaku agen yang iteratif dan adaptif. **Pelatihan dan Evaluasi LUMOS**

Salah satu keuntungan utama LUMOS adalah desain modularnya, yang memungkinkan peningkatan yang mudah dan penerapan yang lebih luas untuk berbagai tugas interaktif. Dengan memisahkan komponen perencanaan, landasan, dan eksekusi, para peneliti dapat meningkatkan atau mengganti modul individu tanpa memengaruhi yang lain. Untuk melatih LUMOS, para peneliti menyusun kumpulan data skala besar dan berkualitas tinggi yang terdiri dari lebih dari 56.000 anotasi yang berasal dari berbagai alasan penalaran dasar yang sebenarnya di berbagai tugas interaktif yang kompleks, termasuk menjawab pertanyaan, matematika, pengkodean, penjelajahan web, dan penalaran multimodal. Anotasi ini diperoleh dengan menggunakan GPT-4 dan model bahasa canggih lainnya untuk mengonversi tolok ukur yang ada ke dalam format terpadu yang kompatibel dengan arsitektur LUMOS. Kumpulan data yang dihasilkan adalah salah satu sumber daya sumber terbuka terbesar untuk penyempurnaan agen, yang memungkinkan model bahasa yang lebih kecil untuk dilatih sebagai agen bahasa secara efektif. Dalam evaluasi di sembilan kumpulan data, LUMOS menunjukkan beberapa keunggulan utama. Ini mengungguli beberapa agen sumber terbuka yang lebih besar pada kumpulan data yang ditahan untuk setiap jenis tugas, bahkan melampaui agen GPT pada tugas tanya jawab dan web dalam beberapa kasus. LUMOS juga mengungguli agen yang dihasilkan oleh metode pelatihan lain, seperti rangkaian pemikiran dan pelatihan terpadu yang tidak termodular. LUMOS secara khusus menunjukkan kemampuan generalisasi yang mengesankan, secara signifikan mengungguli skala 30B (WizardLM-30B dan Vicuna-v1.3-33B) dan agen khusus domain pada tugas yang tidak terlihat yang melibatkan lingkungan dan tindakan baru. **Kesimpulan**

Dengan sifat sumber terbukanya, kinerja yang kompetitif, dan kemampuan generalisasi yang kuat, LUMOS merupakan langkah maju yang signifikan dalam mengembangkan agen bahasa yang terjangkau, transparan, dan dapat direproduksi untuk tugas interaktif yang kompleks.