AI Umum

Pemrosesan Konteks Luas Secara Efisien dalam Model Bahasa Besar: Dual Chunk Attention untuk Dukungan Konteks Panjang Tanpa Pelatihan

Pendahuluan

Model Bahasa Besar (LLM) telah memainkan peran penting dalam mencapai kinerja terbaik dalam berbagai aplikasi Pemrosesan Bahasa Alami (NLP), mulai dari menghasilkan tulisan yang menyerupai manusia hingga memahami seluk-beluk bahasa. Namun, efektivitasnya berkurang saat memproses teks yang melebihi panjang pelatihannya, membatasi kegunaannya untuk analisis dokumen komprehensif atau dialog yang diperpanjang.

DCA: Kerangka Kerja Baru untuk Konteks Luas

Penelitian sebelumnya berfokus pada perluasan frekuensi dasar RoPE atau PI untuk meningkatkan panjang konteks yang didukung oleh LLM. Industri ini sebagian besar bergantung pada pengembangan frekuensi dasar RoPE atau PI karena biaya pelatihan yang tinggi dan ketidakcocokan dengan teknologi seperti Flash Attention.

Sebuah tim peneliti dari Universitas Hong Kong, Alibaba Group, dan Universitas Fudan telah merancang kerangka kerja baru yang dikenal sebagai Dual Chunk Attention (DCA), yang secara cerdik memperluas kapasitas operasional LLM untuk memproses urutan teks yang jauh lebih panjang tanpa memerlukan pelatihan tambahan. Terobosan ini mengatasi hambatan tradisional yang terkait dengan penanganan konteks luas LLM, seperti biaya komputasi yang mahal dan kompleksitas logistik pelatihan pada kumpulan data yang besar.

Arsitektur DCA

DCA terdiri dari tiga mekanisme perhatian: intra-chunk, inter-chunk, dan successive-chunk. Perhatian intra-chunk menghitung produk dalam dari kueri dan kunci dalam chunk yang sama. Perhatian inter-chunk menggabungkan informasi dari chunk yang berbeda dengan menyesuaikan indeks posisi untuk kueri dan kunci. Perhatian successive-chunk adalah kasus khusus dari perhatian inter-chunk yang mempertahankan lokalitas token tetangga. Matriks posisi relatif M dihitung menggunakan indeks posisi dan digunakan untuk menghitung skor perhatian. Normalisasi Softmax diterapkan pada skor perhatian untuk mendapatkan probabilitas akhir.

Integrasi dengan Flash Attention

Salah satu fitur menonjol dari DCA adalah integrasinya dengan Flash Attention, teknologi yang meningkatkan efisiensi memori model dan kecepatan pemrosesan. Sinergi antara DCA dan Flash Attention memungkinkan keseimbangan optimal antara sumber daya komputasi dan kinerja, memungkinkan model untuk menangani urutan teks panjang dalam waktu yang jauh lebih singkat dibandingkan dengan metode tradisional.

Evaluasi

Efektivitas DCA ditekankan oleh kinerjanya yang luar biasa dalam tugas-tugas praktis yang membutuhkan pemahaman konteks yang luas. Kerangka kerja ini menunjukkan kehebatannya dengan mencapai tingkat kinerja yang sebanding dengan atau melampaui model yang disetel dengan baik pada tolok ukur konteks panjang. Secara khusus, ketika dilengkapi dengan DCA, model LLM 70B mencapai tingkat kinerja 94% dari GPT-3.5-turbo-16k pada tugas yang mengharuskan pemrosesan teks lebih dari 100 ribu token. Tingkat kinerja ini, yang dicapai tanpa perlu pelatihan tambahan, merupakan kemajuan signifikan dalam kemampuan LLM, membuka jalan baru untuk aplikasinya di area yang membutuhkan analisis teks yang detail dan komprehensif.

Kesimpulan

Pengenalan DCA oleh para peneliti menandai era baru dalam kemampuan LLM. Dengan memungkinkan pemrosesan urutan teks yang diperpanjang secara efisien tanpa pelatihan lebih lanjut, DCA tidak hanya mengatasi keterbatasan signifikan dari model saat ini tetapi juga memperluas cakrawala untuk aplikasinya di berbagai domain. Lompatan teknologi ini menawarkan prospek yang menjanjikan untuk mengembangkan alat NLP yang lebih canggih dan serbaguna yang mampu menangani tuntutan pemrosesan dan pembuatan bahasa manusia yang semakin kompleks. Dengan DCA, potensi LLM untuk merevolusi bidang-bidang seperti pembuatan konten otomatis, analisis dokumen mendalam, dan sistem AI interaktif menjadi semakin nyata, menandai kemajuan penting dalam evolusi teknologi NLP yang sedang berlangsung.