AI Umum

Jamba: Model Bahasa Besar Hibrida SSM-Transformer Inovatif dari AI21 Labs

Inovasi di Balik Jamba

Jamba menggabungkan arsitektur Mamba dan Transformer untuk mengatasi keterbatasan masing-masing sistem sekaligus memanfaatkan kekuatannya. Tidak seperti model konvensional yang didasarkan pada arsitektur Transformer, seperti GPT, Gemini, dan Llama, Jamba menggunakan pendekatan hibrida.

Jamba memiliki jendela konteks yang luar biasa sebesar 256K token, setara dengan sekitar 210 halaman teks, dan dapat memuat hingga 140K token pada satu GPU 80GB. Kemampuan ini jauh melampaui standar saat ini, seperti Llama 2 milik Meta yang hanya mengelola jendela konteks 32.000 token.

Arsitektur hibrida Jamba menggabungkan lapisan Transformer, Mamba, dan campuran ahli (MoE), mengoptimalkan memori, throughput, dan kinerja. Model ini beroperasi berdasarkan prinsip yang memanfaatkan lapisan campuran ahli untuk menggunakan hanya 12B dari 52B parameter yang tersedia selama inferensi, sehingga meningkatkan efisiensi tanpa mengorbankan kekuatan atau kecepatan model.

Throughput dan Efisiensi yang Belum Pernah Ada

Salah satu keuntungan paling signifikan dari Jamba adalah kemampuannya untuk memberikan throughput tiga kali lipat pada konteks panjang jika dibandingkan dengan model berbasis Transformer dengan ukuran serupa, seperti Mixtral 8x7B. Efisiensi ini dimungkinkan melalui komposisi arsitekturalnya yang unik, yang mencakup campuran lapisan perhatian, Mamba, dan MoE. Struktur ini tidak hanya meningkatkan kinerja model tetapi juga memastikan throughput tinggi dan optimalisasi memori.

Selain itu, arsitektur Jamba mengikuti pendekatan blok dan lapisan, yang menggabungkan lapisan perhatian atau Mamba yang diikuti oleh multi-layer perceptron (MLP), mencapai rasio optimal yang memaksimalkan kualitas dan throughput pada satu GPU. Pendekatan ini memungkinkan akomodasi beban kerja inferensi umum tanpa kendala memori.

Akses Terbuka dan Prospek Masa Depan

AI21 Labs telah merilis Jamba dengan bobot terbuka di bawah lisensi Apache 2.0, membuatnya tersedia di Hugging Face dan segera di katalog API NVIDIA sebagai layanan mikro inferensi NVIDIA NIM. Langkah ini tidak hanya mendemokratisasi akses ke kemampuan canggih Jamba tetapi juga mengundang komunitas AI untuk mengeksplorasi, menyempurnakan, dan membangun arsitektur inovatif ini.

Meskipun saat ini dirilis sebagai model penelitian tanpa perlindungan yang diperlukan untuk penggunaan komersial, AI21 Labs berencana untuk meluncurkan versi yang disempurnakan dan lebih aman dalam beberapa minggu mendatang. Perkembangan ini menggarisbawahi komitmen industri untuk meningkatkan kinerja, efisiensi, dan aksesibilitas AI, membuka jalan bagi generasi berikutnya model AI.

Kesimpulan Utama

  • Jamba adalah model AI tingkat produksi pertama yang menggabungkan model Ruang Keadaan Terstruktur Mamba (SSM) dengan arsitektur Transformer, mengatasi keterbatasan masing-masing sekaligus memanfaatkan kekuatannya.
  • Dengan jendela konteks 256K token dan kemampuan memuat 140K token pada satu GPU 80GB, Jamba secara signifikan mengungguli model yang ada dalam hal efisiensi memori dan penanganan konteks.
  • Jamba memberikan throughput tiga kali lipat pada konteks panjang dibandingkan dengan model berbasis Transformer berukuran serupa, menandai tolok ukur efisiensi baru.
  • Jamba telah dirilis dengan bobot terbuka di bawah lisensi Apache 2.0, tersedia di Hugging Face dan segera di katalog API NVIDIA, mendorong keterlibatan komunitas dan inovasi lebih lanjut.
  • Diharapkan akan dirilis versi Jamba yang siap secara komersial, yang kemungkinan akan menetapkan standar baru untuk kinerja dan aplikasi model AI.

Pengenalan Jamba oleh AI21 Labs tidak hanya mewakili tonggak teknis tetapi juga pergeseran menuju model AI yang lebih mudah diakses, efisien, dan kuat. Saat komunitas AI terus berkembang, prinsip dan inovasi di balik Jamba tidak diragukan lagi akan memengaruhi perkembangan teknologi AI di masa depan.