AI Umum

Efektivitas BitDelta dalam Menekan Biaya Pelatihan AI

Pelatihan Large Language Models (LLM) melibatkan dua fase utama: prapelatihan pada kumpulan data yang luas dan penyetelan untuk tugas-tugas tertentu. Sementara prapelatihan membutuhkan sumber daya komputasi yang signifikan, penyetelan menambahkan informasi baru yang relatif lebih sedikit ke model, sehingga membuatnya lebih mudah dikompresi. Paradigma prapelatihan-penyetelan ini telah sangat memajukan pembelajaran mesin, memungkinkan LLM untuk unggul dalam berbagai tugas dan beradaptasi dengan kebutuhan individu, menjanjikan masa depan dengan model yang sangat terspesialisasi yang disesuaikan dengan persyaratan khusus.

Berbagai teknik kuantisasi, seperti penskalaan ulang aktivasi, penguraian perkalian matriks, dan pembulatan bobot iteratif, bertujuan untuk mengurangi penggunaan memori dan latensi dalam LLM. Selain itu, metode pemangkasan menginduksi kelangkaan dengan meniadakan nilai parameter tertentu. Pendekatan penyetelan halus yang efisien parameter (PEFT), seperti lapisan adaptor dan Adaptasi Peringkat Rendah (LoRA), mengurangi parameter yang dapat dilatih selama penyetelan halus, meningkatkan efisiensi tanpa mengorbankan akurasi. Metode-metode ini menawarkan potensi yang signifikan untuk pelatihan yang sadar kompresi dan sistem penyajian multi-penyewa.

Para peneliti dari Massachusetts Institute of Technology,
Princeton University, dan Together AI telah mengusulkan BitDelta, yang secara efektif mengkuantisasi delta penyetelan halus menjadi 1 bit tanpa mengorbankan kinerja. Penemuan ini menunjukkan potensi redundansi dalam informasi penyetelan halus dan menawarkan implikasi penyajian dan penyimpanan multi-penyewa. Dengan menggunakan model dasar presisi tinggi di samping beberapa delta 1-bit, BitDelta secara signifikan mengurangi persyaratan memori GPU hingga lebih dari 10×, sehingga meningkatkan latensi pembuatan di lingkungan multi-penyewa.

Bagaimana BitDelta Bekerja

BitDelta menggunakan proses dua tahap untuk kuantisasi delta penyetelan halus yang efisien dalam LLM. Pertama, ia mengkuantisasi setiap delta matriks bobot menjadi matriks biner yang dikalikan dengan faktor penskalaan, yang diinisialisasi sebagai nilai absolut rata-rata delta. Kedua, ia mengkalibrasi faktor penskalaan melalui distilasi model pada kumpulan data kecil, mempertahankan matriks biner yang dibekukan.

Efisiensi BitDelta memungkinkan kompresi model yang cepat, memfasilitasi penggunaan server bersama, dan secara signifikan mengurangi konsumsi memori GPU dan latensi inferensi. BitDelta dievaluasi terhadap model asli yang tidak terkompresi dan metode kuantisasi RTN 8-bit dan GPTQ 4-bit. Di seluruh keluarga model Llama-2 dan Mistral, BitDelta secara konsisten berkinerja baik pada metrik margin tinggi, sering kali mengungguli model dasar. Ini secara akurat mempertahankan informasi yang disetel halus, bahkan melampaui GPTQ ketika diterapkan pada model dasar yang dikuantisasi, menunjukkan efektivitas dan keserbagunaannya di berbagai ukuran model dan teknik penyetelan halus.

Kesimpulan

Sebagai kesimpulan, para peneliti dari Massachusetts Institute of Technology,
Princeton University, dan Together AI telah mengusulkan BitDelta, metode sederhana namun kuat untuk mengkuantisasi delta bobot dalam LLM hingga 1 bit, secara efisien mewakili beberapa model yang disetel halus dengan satu model dasar dan beberapa delta. BitDelta mencapai degradasi kinerja minimal melalui kalibrasi berbasis distilasi sambil secara signifikan mengurangi persyaratan memori GPU dan meningkatkan latensi pembuatan. Pendekatan ini membuka jalan bagi penyebaran model yang lebih efisien dan pemanfaatan sumber daya dalam aplikasi pembelajaran mesin./p>