AI Umum

Model Bahasa Besar Efisien Inferensi dengan Tandem Transformers dari Google DeepMind

Pengantar

Model bahasa besar (LLM) masih menghadapi hambatan biaya komputasi yang signifikan, sehingga menghambat penyebarannya secara luas, bahkan dengan pendekatan optimalisasi inferensi yang telah berkembang pesat. Pembuatan token secara berurutan selama proses pembuatan autoregresif merupakan penyebab utama latensi inferensi yang tinggi. Karena akselerator ML (GPU/TPU) dirancang untuk perkalian matriks-matriks dan bukan operasi matriks-vektor yang umum di LLM, keterbatasan ini mencegah pemanfaatannya secara penuh. Akibatnya, pembuatan jawaban autoregresif jauh kurang efisien dibandingkan pemrosesan perintah, yang melibatkan penanganan semua token secara bersamaan.

Namun, kepentingan relatif dari kemampuan untuk memahami kueri atau prefiks (pemahaman bahasa alami, atau NLU) dan kemampuan untuk menghasilkan jawaban (pembuatan bahasa alami, atau NLG) masih belum jelas. Desain LLM modern yang hanya mengandalkan dekoder menggabungkan kedua aktivitas ini.

Tandem Transformers

Sebuah studi baru oleh Google Research dan DeepMind mengambil pendekatan yang berorientasi pada efisiensi untuk menjawab pertanyaan mendasar ini. Studi mereka menyajikan Tandem Transformers, sebuah desain baru yang memberikan NLU (pemrosesan prefiks) bagian yang jauh lebih besar dari sumber daya model dibandingkan NLG (pembuatan respons).

Para peneliti mengimplementasikan lapisan proyeksi untuk menyelaraskan ruang representasi yang mungkin berdimensi lebih tinggi. Eksperimen dengan Tandem (PaLM2-Bison, PaLM2-Gecko) menunjukkan bahwa kapasitas yang dibutuhkan untuk bagian NLU vs NLG dari LLM dapat dipisahkan, menghasilkan desain yang lebih efisien tanpa penurunan akurasi yang nyata (di mana PaLM2-Gecko < PaLM2-Otter < PaLM2-Bison, menurut ukuran model).

Untuk mempertahankan akurasi yang tinggi, model utama Tandem menyegarkan semua representasi prefiks, berbeda dengan arsitektur encoder-dekoder yang akan memproses kueri/prefiks melalui encoder dan kemudian menghasilkan seluruh respons melalui dekoder.

Tandem + SPEED

Mereka merekomendasikan Tandem + SPEED untuk aplikasi yang menginginkan keluaran yang tidak dapat dibedakan dari model utama. Kerangka kerja dekode spekulatif (SPEED) menggunakan model kecil Tandem untuk membuat token draf. Kemudian, model besar memverifikasinya. Peningkatan kualitas draf sambil mengurangi overhead verifikasi relatif terhadap SPEED tradisional sangat dibantu oleh kapasitas model kecil Tandem untuk merespons representasi model besar.

Karena Tandem adalah model independen, model ini dapat menghasilkan hasil yang memuaskan tanpa memerlukan verifikasi secara inheren oleh model besar. Tandem + SPEED juga dapat memanfaatkan representasi ML saat membuat token secara autoregresif, memberikan drafter kompromi yang jauh lebih baik antara kualitas token dan latensi model.

Studi telah menunjukkan bahwa distilasi logit berguna untuk meningkatkan pelatihan model draf SPEED. Metode ini bekerja dengan baik dengan distilasi dan melengkapinya.

Hasil Empiris untuk Tandem + SPEED

Terakhir, mereka mengevaluasi latensi TPUv5e secara ekstensif untuk versi Tandem yang berdiri sendiri dan SPEED (PaLM2-Bison, PaLM2-Gecko), di mana PaLM2-Bison adalah model besar utama dan PaLM2-Gecko adalah model kecil sekunder. Para peneliti menemukan bahwa Tandem + SPEED dengan distilasi dapat mengungguli model dasar PaLM2-Bison dengan faktor setidaknya 2,19 pada berbagai kumpulan data sambil mempertahankan kualitas keluaran yang sama. Sebagai bonus, model mereka 1,11 hingga 1,17 kali lebih cepat dari SPEED biasa dengan model kecil sebagai model sekunder. Dengan menggunakan panjang blok adaptif di SPEED, latensi Tandem dapat lebih dikurangi pada berbagai kumpulan data sebesar 1,04× hingga 1,09×.