AI Umum

Menggabungkan Model Bahasa Besar untuk Chat AI yang Unggul

Penggabungan Pengetahuan LLM

Pemrosesan bahasa alami (NLP) telah mengalami kemajuan signifikan dengan munculnya Model Bahasa Besar (LLM) seperti GPT dan LLaMA. Model-model ini telah menjadi alat penting untuk berbagai tugas, mendorong kebutuhan yang semakin besar akan LLM eksklusif di kalangan individu dan organisasi. Namun, sifat pengembangan LLM yang intensif sumber daya tetap menjadi tantangan bagi banyak pihak.

Para peneliti telah mengusulkan penggabungan pengetahuan LLM sebagai pendekatan alternatif untuk membangun model yang kuat sekaligus mengurangi biaya pengembangan. Metode ini menggabungkan beberapa LLM ke dalam kerangka kerja terpadu untuk memanfaatkan kekuatannya di berbagai tugas.

Upaya sebelumnya untuk mengintegrasikan beberapa model telah mengandalkan metode ansambel atau penggabungan langsung jaringan saraf. Meskipun efektif, pendekatan ini sering kali mengalami inefisiensi selama inferensi atau memerlukan arsitektur jaringan yang seragam untuk penggabungan.

FUSECHAT: Penggabungan Pengetahuan untuk Chat LLM

FUSELLM memperkenalkan paradigma baru untuk penggabungan pengetahuan, menggunakan matriks distribusi probabilitas yang dihasilkan oleh beberapa LLM sumber untuk mentransfer pengetahuan kolektif ke LLM target melalui pelatihan berkelanjutan yang ringan. Metodologi ini memungkinkan penggabungan LLM yang telah dilatih sebelumnya dengan arsitektur yang beragam menjadi model yang kohesif.

Memperluas prinsip-prinsip FUSELLM, penelitian ini menyajikan FUSECHAT, yang dirancang khusus untuk menggabungkan chat LLM dengan berbagai arsitektur dan skala. FUSECHAT berlangsung dalam dua tahap utama: penggabungan pengetahuan LLM sumber dengan struktur dan skala yang berbeda dan penggabungan dalam ruang parameter untuk menggabungkan pengetahuan kolektif dari model sumber.

Metode ini memperkenalkan VARM (Variation Ratio Merge), pendekatan baru untuk menentukan bobot penggabungan berdasarkan rasio variasi matriks parameter sebelum dan sesudah penyesuaian. Hal ini memungkinkan penggabungan yang lebih detail tanpa upaya pelatihan tambahan.

Evaluasi Empiris

Evaluasi empiris FUSECHAT menggunakan chat LLM sumber terbuka yang representatif menunjukkan keefektifannya. Hasil pada MT-Bench, tolok ukur yang menilai kemampuan dialog multi-giliran, menunjukkan bahwa FUSECHAT mengungguli LLM sumber individu dan nilai dasar yang telah disetel dengan baik pada skala yang berbeda. Khususnya, metode penggabungan VARM yang diusulkan mencapai kinerja yang unggul, menyoroti keefektifan penggabungan bobot berdasarkan rasio variasi.

Kesimpulan

Dengan skalabilitas dan fleksibilitasnya, FUSECHAT menyajikan solusi yang menjanjikan untuk mengintegrasikan model obrolan di tengah lanskap pengembangan LLM sumber terbuka yang terus berkembang. Pengembangan FUSECHAT merupakan kemajuan signifikan di bidang integrasi LLM multi-model, khususnya di ranah aplikasi berbasis obrolan. Dengan memanfaatkan teknik penggabungan pengetahuan, FUSECHAT menawarkan pendekatan yang praktis dan efisien untuk menggabungkan kemampuan berbagai chat LLM, mengatasi tantangan pengembangan model yang intensif sumber daya. Kemampuannya untuk mengintegrasikan model dengan arsitektur dan skala yang bervariasi, ditambah dengan keefektifan metode penggabungan VARM, memposisikan FUSECHAT sebagai alat serbaguna untuk meningkatkan kinerja sistem dialog.