AI Umum

Kuantifikasi Post-Biner LLM: Metode Kuantifikasi Khusus untuk Model Pra-Terlatih yang Dikompresi

Model Bahasa Besar Pra-Terlatih (LLM)

LLM memiliki kemampuan pemrosesan bahasa yang luar biasa, tetapi membutuhkan sumber daya komputasi yang besar. Binarisasi, yang mengompresi model menjadi satu bit, menawarkan solusi dengan secara drastis mengurangi komputasi dan penggunaan memorinya.

Kuantifikasi Post-Biner

Namun, teknik kuantifikasi yang ada harus mempertahankan kinerja LLM pada bit yang sangat rendah. Ini menantang penyediaan LLM yang dikerahkan secara efektif sambil mempertahankan akurasi pada berbagai tugas pemrosesan bahasa.

LLM: Kuantifikasi Post-Biner 1-Bit

Peneliti dari Universitas Hong Kong, Universitas Beihang, dan ETH Zurich memperkenalkan LLM, skema kuantifikasi post-biner 1-bit yang inovatif yang dirancang untuk LLM pra-terlatih.

LLM memanfaatkan analisis distribusi bobot untuk mengidentifikasi bobot yang menonjol dan menggunakan strategi aproksimasi terstruktur untuk meminimalkan kehilangan akurasi. Ini juga memperkenalkan pencarian pemisahan non-salient untuk binarisasi yang akurat dari bobot non-menonjol dengan distribusi non-salient.

Manfaat LLM

  • Menyediakan metode kuantifikasi post-biner 1-bit baru untuk LLM, memanfaatkan analisis distribusi bobot melalui matriks kovarians.
  • Menggunakan pilihan terstruktur bobot yang menonjol dan pemisahan non-salient untuk bobot non-menonjol, meminimalkan kesalahan kuantifikasi.
  • Mengimplementasikan aproksimasi terstruktur untuk bobot yang menonjol dan pemisahan distribusi non-salient untuk yang non-menonjol, mencapai inferensi akurasi tinggi dengan bit yang sangat rendah dan penyediaan yang efektif pada GPU.

Hasil Eksperimental

LLM, yang diimplementasikan pada PyTorch dan HuggingFace, adalah kerangka kerja kuantifikasi 1-bit inovatif untuk LLM. Ini melampaui metode yang ada seperti GPTQ dan PB-LLM, mencapai hasil perplexity yang unggul di berbagai ukuran model dan kumpulan data, termasuk WikiText2, PTB, dan C4.

Binarisasi menonjol terstruktur LLM dan pemisahan non-menonjol dari bobot non-menonjol secara signifikan meningkatkan kinerjanya, menunjukkan penerapan universal dan ketahanannya dalam pengaturan LLM.

Kesimpulan

Peneliti dari Universitas Hong Kong, Universitas Beihang, dan ETH Zurich memperkenalkan LLM, metode kuantifikasi post-biner baru untuk mengompresi LLM pra-terlatih. Dengan memanfaatkan aproksimasi terstruktur untuk bobot yang menonjol dan segmentasi untuk yang non-menonjol, LLM mencapai kuantifikasi bit yang sangat rendah tanpa kehilangan akurasi yang signifikan. Ini menetapkan batas baru dalam kuantifikasi bit-width LLM, memungkinkan penyediaan dalam skenario edge dan perangkat dengan sumber daya terbatas sambil mempertahankan jaminan kinerja.