AI Umum

Membuka Kecepatan dan Efisiensi dalam Model Bahasa Besar dengan Ouroboros: Pendekatan Kecerdasan Buatan Baru untuk Mengatasi Tantangan Dekoding Spekulatif

Pengantar

Model Bahasa Besar (LLM) seperti GPT dan BERT telah menjadi pengubah permainan, mendorong kemajuan dalam pemahaman mesin dan pembuatan teks seperti manusia. Model-model ini telah menguasai seluk-beluk bahasa, memungkinkan mereka untuk menangani tugas-tugas dengan akurasi yang luar biasa. Namun, penerapannya dalam skenario waktu nyata terhambat oleh keterbatasan kritis: kecepatan inferensi.

Proses dekoding autoregresif konvensional, yang secara berurutan menghasilkan satu token pada satu waktu, menimbulkan hambatan yang signifikan, menjadikan pencarian inferensi kecepatan tinggi sebagai tantangan kritis di lapangan.

Ouroboros: Dekoding Spekulatif untuk Inferensi LLM yang Lebih Cepat

Para peneliti dari Grup NLP, Departemen Ilmu Komputer dan Teknologi, Institut Kecerdasan Buatan, Pusat Penelitian Nasional Ilmu Pengetahuan dan Teknologi Informasi Beijing, Universitas Tsinghua memperkenalkan kerangka kerja baru bernama Ouroboros, yang muncul sebagai mercusuar inovasi.

Ouroboros menyimpang dari pendekatan autoregresif tradisional, mengadopsi metode dekoding spekulatif yang menjanjikan untuk merevolusi efisiensi LLM selama inferensi. Kerangka kerja ini menghasilkan draf awal menggunakan model yang lebih kecil dan lebih efisien. Draf ini kemudian disempurnakan dan diperluas secara non-autoregresif melalui proses verifikasi oleh model target yang lebih besar, secara signifikan mempercepat proses inferensi tanpa mengorbankan kualitas keluaran.

Strategi Kunci: Kumpulan Kandidat Frasa

Pusat dari pendekatannya adalah membangun kumpulan kandidat frasa, sebuah langkah strategis yang meningkatkan fase penyusunan. Kumpulan ini, yang diisi dengan kandidat frasa potensial, menghasilkan draf awal yang koheren lebih selaras dengan keluaran target. Model yang lebih kecil menyusun kalimat pada tingkat frasa, memanfaatkan kumpulan kandidat untuk inspirasi. Hal ini memungkinkan draf yang lebih panjang dan lebih akurat, diverifikasi dan diperbaiki oleh model yang lebih besar.

Proses Verifikasi Inovatif

Tidak seperti metode tradisional, proses verifikasi menggunakan seluruh draf, termasuk token yang dikonfirmasi dan dibuang, untuk menyempurnakan dan memperluas keluaran, memastikan akurasi dan koherensi yang tinggi.

Hasil yang Menjanjikan

Ouroboros melampaui metode yang ada seperti dekoding lookahead dan dekoding spekulatif, mencapai percepatan hingga 2,8x. Akselerasi ini dicapai tanpa mengurangi kinerja tugas, mempertahankan kualitas tinggi pembuatan teks yang identik dengan LLM. Kemajuan tersebut menandai era baru untuk aplikasi LLM waktu nyata, di mana kecepatan dan akurasi sangat penting. Dari AI percakapan hingga terjemahan bahasa instan, aplikasi potensial Ouroboros sangat luas dan beragam, menawarkan prospek yang menjanjikan untuk masa depan pemrosesan bahasa alami.

Kesimpulan

Ouroboros mewakili lompatan maju yang signifikan dalam mengatasi tantangan lama efisiensi inferensi LLM. Dengan cerdik menggabungkan dekoding spekulatif dengan kumpulan kandidat frasa, ia mencapai keseimbangan yang baik antara kecepatan dan akurasi, membuka jalan bagi aplikasi waktu nyata yang sebelumnya tidak terjangkau. Kerangka kerja ini mencontohkan potensi pendekatan inovatif untuk mengatasi keterbatasan dan menetapkan tolok ukur baru untuk pengembangan masa depan dalam pemrosesan bahasa alami.

Singkatnya, memperkenalkan kerangka kerja Ouroboros sangat penting dalam mengembangkan Model Bahasa Besar. Kemampuannya untuk secara signifikan mempercepat proses inferensi tanpa mengorbankan kualitas keluaran memenuhi kebutuhan penting di lapangan, membuka kemungkinan baru untuk menerapkan LLM dalam skenario waktu nyata. Saat bidang ini berkembang, prinsip-prinsip yang mendasari Ouroboros akan menginspirasi inovasi lebih lanjut, melanjutkan pencarian teknologi pemrosesan bahasa alami yang semakin efisien dan efektif.