AI Umum

DéjàVu: Sistem Pembelajaran Mesin untuk Layanan LLM yang Efisien dan Tahan Kesalahan

Pengantar

Penggunaan Large Language Model (LLM) seperti GPT-3, OPT, dan BLOOM di berbagai antarmuka digital, termasuk chatbot dan alat ringkasan teks, telah menimbulkan kebutuhan penting untuk mengoptimalkan infrastruktur layanannya. LLM terkenal dengan ukurannya yang besar dan sumber daya komputasi yang dibutuhkannya, yang menghadirkan tiga tantangan besar dalam layanannya: penggunaan akselerator perangkat keras secara efisien, pengelolaan jejak memori, dan memastikan waktu henti minimal selama kegagalan.

Sistem DéjàVu

Para peneliti dari MSR Project Fiddle Intern, ETH Zurich, Carnegie Mellon University, dan Microsoft Research telah dengan cermat mengembangkan sistem DéjàVu baru untuk mengatasi hambatan ini dengan elegan. Inti dari DéjàVu adalah pustaka streaming cache Key-Value (KV) yang serbaguna, yang disebut DéjàVuLib, yang dirancang dengan cerdik untuk menyederhanakan proses layanan LLM.

Sistem ini merupakan terobosan karena pendekatannya dalam menangani latensi bimodal yang melekat dalam pemrosesan prompt dan pembuatan token, perbedaan yang sebelumnya menyebabkan underutilisasi GPU yang signifikan. DéjàVu memperkenalkan pergeseran paradigma melalui disagregasi prompt-token, mengalokasikan sumber daya komputasi yang berbeda untuk setiap fase. Pemisahan ini diterapkan secara taktis untuk menyesuaikan perbedaan persyaratan memori dan komputasi untuk pemrosesan prompt dan pembuatan token. Dengan menyelaraskan tugas komputasi dengan perangkat keras yang paling sesuai, DéjàVu memastikan bahwa GPU tetap aktif, secara efisien menjembatani kesenjangan antara pemrosesan prompt yang membutuhkan komputasi intensif dan fase pembuatan token yang relatif seragam.

Komponen penting dari strategi DéjàVu adalah pertukaran mikro-batch, teknik inovatif yang dirancang untuk memaksimalkan efisiensi memori GPU. Proses ini melibatkan pertukaran mikro-batch secara dinamis antara memori GPU dan CPU, sehingga memungkinkan ukuran batch yang lebih besar tanpa perlu peningkatan proporsional dalam memori GPU. Ini tidak hanya meningkatkan throughput tetapi juga memungkinkan layanan model yang lebih besar di bawah batasan perangkat keras yang tetap, sebuah lompatan maju yang signifikan dalam teknologi layanan LLM.

DéjàVu menetapkan standar baru dalam ketahanan sistem melalui fitur replikasi statusnya, yang dirancang untuk memperkuat proses layanan terhadap gangguan. Dengan mereplikasi status cache KV di berbagai penyimpanan memori, DéjàVu memastikan bahwa jika terjadi kegagalan, sistem dapat dengan cepat melanjutkan operasi dari status baik terakhir yang diketahui, meminimalkan dampak pada kinerja layanan secara keseluruhan. Pendekatan ini secara dramatis mengurangi redundansi dan latensi yang biasanya terkait dengan proses pemulihan dalam sistem layanan LLM tradisional.

Hasil

Kemanjuran DéjàVu menunjukkan kemampuan untuk meningkatkan throughput hingga dua kali lipat dari sistem yang ada, sebuah bukti dari metodologi inovatifnya. Peningkatan tersebut bukan hanya kemenangan numerik tetapi mewakili peningkatan nyata dalam pengalaman pengguna dengan mengurangi waktu tunggu dan meningkatkan kepercayaan pada layanan yang didukung oleh LLM.

Kesimpulan

Dalam menyusun DéjàVu, para peneliti telah mengatasi inefisiensi yang ada dalam layanan LLM dan meletakkan cetak biru untuk inovasi masa depan di bidang ini. Arsitektur modular sistem, yang diwujudkan oleh DéjàVuLib, memastikan bahwa sistem dapat diadaptasi dan diperluas untuk memenuhi tuntutan aplikasi LLM yang terus berkembang. Kemampuan beradaptasi ini, dikombinasikan dengan peningkatan nyata dalam efisiensi dan keandalan, menandai tonggak penting dalam mewujudkan potensi LLM dalam aplikasi sehari-hari.

Poin-poin Penting

  • DéjàVu merevolusi layanan LLM dengan fokus pada efisiensi dan toleransi kesalahan, secara signifikan mengungguli sistem saat ini.
  • Pemisahan pemrosesan prompt dan pembuatan token, ditambah dengan pertukaran mikro-batch, mengoptimalkan pemanfaatan GPU dan manajemen memori.
  • Replikasi status memastikan ketahanan terhadap kegagalan, memungkinkan pemulihan yang cepat dan gangguan layanan minimal.
  • Peningkatan throughput yang ditunjukkan hingga 2x menyoroti potensi DéjàVu untuk meningkatkan pengalaman pengguna di seluruh layanan yang didukung LLM.