AI Umum

Judul: Fiddler: Mesin Inferensi Hemat Sumber Daya untuk LLM dengan Orkestrasi CPU-GPU

Subjudul:

  • Mengatasi Tantangan Penerapan Model MoE dalam Lingkungan dengan Sumber Daya Terbatas
  • Fiddler: Solusi Inovatif untuk Optimalisasi Penerapan Model MoE
  • Kinerja Fiddler: Peningkatan Kinerja yang Signifikan Dibandingkan Metode Lain
  • Implikasi Fiddler: Mendemokratisasi Model AI Skala Besar

Isi:

Model Mixture-of-Experts (MoE) telah merevolusi kecerdasan buatan dengan memungkinkan alokasi tugas secara dinamis ke komponen khusus dalam model yang lebih besar. Namun, tantangan utama dalam mengadopsi model MoE adalah penerapannya di lingkungan dengan sumber daya komputasi terbatas. Ukuran model yang sangat besar sering kali melampaui kemampuan memori GPU standar, sehingga membatasi penggunaannya dalam pengaturan dengan sumber daya rendah. Keterbatasan ini menghambat efektivitas model dan menantang para peneliti dan pengembang yang ingin memanfaatkan model MoE untuk tugas komputasi kompleks tanpa akses ke perangkat keras kelas atas.

Metode yang ada untuk menerapkan model MoE di lingkungan terbatas biasanya melibatkan pemindahan sebagian komputasi model ke CPU. Meskipun pendekatan ini membantu mengelola keterbatasan memori GPU, namun pendekatan ini menimbulkan latensi yang signifikan karena transfer data yang lambat antara CPU dan GPU. Model MoE canggih juga sering menggunakan fungsi aktivasi alternatif, seperti SiLU, yang membuatnya sulit untuk menerapkan strategi pemanfaatan kelangkaan secara langsung. Pemangkasan saluran yang tidak cukup mendekati nol dapat berdampak negatif pada kinerja model, sehingga memerlukan pendekatan yang lebih canggih untuk memanfaatkan kelangkaan.

Sebuah tim peneliti dari University of Washington telah memperkenalkan Fiddler, sebuah solusi inovatif yang dirancang untuk mengoptimalkan penerapan model MoE dengan mengatur sumber daya CPU dan GPU secara efisien. Fiddler meminimalkan overhead transfer data dengan mengeksekusi lapisan pakar pada CPU, mengurangi latensi yang terkait dengan pemindahan data antara CPU dan GPU. Pendekatan ini mengatasi keterbatasan metode yang ada dan meningkatkan kelayakan penerapan model MoE besar dalam lingkungan dengan sumber daya terbatas.

Fiddler membedakan dirinya dengan memanfaatkan kemampuan komputasi CPU untuk pemrosesan lapisan pakar sambil meminimalkan volume data yang ditransfer antara CPU dan GPU. Metodologi ini secara drastis mengurangi latensi untuk komunikasi CPU-GPU, memungkinkan sistem untuk menjalankan model MoE besar, seperti Mixtral-8x7B dengan lebih dari 90GB parameter, secara efisien pada satu GPU dengan memori terbatas. Desain Fiddler menunjukkan inovasi teknis yang signifikan dalam penerapan model AI.

Efektivitas Fiddler ditekankan oleh metrik kinerjanya, yang menunjukkan peningkatan orde besarnya dibandingkan metode pemindahan tradisional. Kinerja diukur dengan jumlah token yang dihasilkan per detik. Fiddler berhasil menjalankan model Mixtral-8x7B yang tidak terkompresi dalam pengujian, menghasilkan lebih dari tiga token per detik pada satu GPU 24GB. Ini meningkat dengan panjang keluaran yang lebih panjang untuk panjang masukan yang sama, karena latensi tahap pengisian awal diamortisasi. Rata-rata, Fiddler lebih cepat dari Eliseev Mazur sebanyak 8,2 kali hingga 10,1 kali dan lebih cepat dari DeepSpeed-MII sebanyak 19,4 kali hingga 22,5 kali, tergantung pada lingkungannya.

Kesimpulannya, Fiddler mewakili lompatan maju yang signifikan dalam memungkinkan inferensi model MoE yang efisien di lingkungan dengan sumber daya komputasi terbatas. Dengan secara cerdik memanfaatkan CPU dan GPU untuk inferensi model, Fiddler mengatasi tantangan umum yang dihadapi oleh metode penerapan tradisional, menawarkan solusi terukur yang meningkatkan aksesibilitas model MoE canggih. Terobosan ini berpotensi mendemokratisasi model AI skala besar, membuka jalan bagi aplikasi dan penelitian yang lebih luas dalam kecerdasan buatan.

Kunjungi Paper dan Github untuk informasi lebih lanjut./p>