AI Umum

Meningkatkan Efisiensi Dekoding Autoregresif: Pendekatan Pembelajaran Mesin oleh Qualcomm AI Research Menggunakan Model Bahasa Besar dan Kecil Hibrid

Pengantar

Model bahasa besar (LLM) sangat penting untuk kemajuan Pemrosesan Bahasa Alami (NLP), menetapkan tolok ukur baru untuk apa yang dapat dicapai mesin dalam memahami dan menghasilkan bahasa manusia. Salah satu tantangan utama dalam NLP adalah permintaan komputasi untuk dekoding autoregresif dalam LLM. Proses ini, yang penting untuk tugas-tugas seperti terjemahan mesin dan peringkasan konten, membutuhkan sumber daya komputasi yang besar, sehingga kurang layak untuk aplikasi waktu nyata atau pada perangkat dengan kemampuan pemrosesan terbatas.

Tantangan Dekoding Autoregresif

Metodologi saat ini untuk mengatasi intensitas komputasi LLM melibatkan berbagai teknik kompresi model seperti pemangkasan kuantisasi dan strategi dekoding paralel. Distilasi pengetahuan adalah pendekatan lain di mana model yang lebih kecil belajar dari keluaran model yang lebih besar. Dekoding paralel bertujuan untuk menghasilkan beberapa token secara bersamaan, tetapi menimbulkan tantangan seperti inkonsistensi keluaran dan memperkirakan panjang respons. Pendekatan bersyarat digunakan dalam pembelajaran multimodal, di mana model bahasa dikondisikan pada fitur visi atau penyandi yang lebih besar. Namun, pendekatan ini sering kali mengorbankan kinerja model atau gagal mengurangi biaya komputasi yang terkait dengan dekoding autoregresif secara signifikan.

Pendekatan Hibrid

Peneliti dari University of Potsdam, Qualcomm AI Research, dan Amsterdam memperkenalkan pendekatan hibrid baru, menggabungkan LLM dengan SLM untuk mengoptimalkan efisiensi dekoding autoregresif. Metode ini menggunakan LLM yang telah dilatih sebelumnya untuk mengodekan permintaan masukan secara paralel, kemudian mengkondisikan SLM untuk menghasilkan respons berikutnya. Pengurangan waktu dekoding yang substansial tanpa mengorbankan kinerja secara signifikan adalah salah satu keuntungan penting dari teknik ini.

Metode LLM-ke-SLM

Metode LLM-ke-SLM yang inovatif meningkatkan efisiensi SLM dengan memanfaatkan representasi permintaan terperinci yang dikodekan oleh LLM. Proses ini dimulai dengan LLM yang mengodekan permintaan menjadi representasi yang komprehensif. Sebuah proyektor kemudian mengadaptasi representasi ini ke ruang penyematan SLM, memungkinkan SLM menghasilkan respons secara autoregresif. Untuk memastikan integrasi yang mulus, metode ini menggantikan atau menambahkan representasi LLM ke dalam penyematan SLM, memprioritaskan pengkondisian tahap awal untuk menjaga kesederhanaan. Ini menyelaraskan panjang urutan menggunakan tokenizer LLM, memastikan SLM dapat menafsirkan permintaan secara akurat, sehingga menggabungkan kedalaman LLM dengan kelincahan SLM untuk dekoding yang efisien.

Hasil

Pendekatan hibrid yang diusulkan mencapai percepatan substansial hingga 4×, dengan penalti kinerja kecil 1 – 2% untuk tugas terjemahan dan peringkasan dibandingkan dengan LLM. Pendekatan LLM-ke-SLM menyamai kinerja LLM sekaligus 1,5x lebih cepat, dibandingkan dengan percepatan 2,3x dari LLM-ke-SLM saja. Penelitian ini juga melaporkan hasil tambahan untuk tugas terjemahan, menunjukkan bahwa pendekatan LLM-ke-SLM dapat berguna untuk panjang pembuatan yang pendek dan jumlah FLOP-nya mirip dengan SLM.

Kesimpulan

Sebagai kesimpulan, penelitian ini menyajikan solusi yang menarik untuk tantangan komputasi dekoding autoregresif dalam model bahasa besar. Dengan cerdik menggabungkan kemampuan pengkodean komprehensif LLM dengan kelincahan SLM, tim telah membuka jalan baru untuk aplikasi pemrosesan bahasa waktu nyata. Pendekatan hibrid ini mempertahankan tingkat kinerja tinggi dan secara signifikan mengurangi tuntutan komputasi, menunjukkan arah yang menjanjikan untuk kemajuan masa depan di bidang ini.