AI Umum

SPIRIT-LM: Model Bahasa Multimodal yang Menggabungkan Teks dan Ucapan

Pengenalan

Model Bahasa Besar (LLM) telah menjadi praktik standar dalam Pemrosesan Bahasa Alami (NLP) setelah pengenalan GPT-3. Penskalaan model bahasa menjadi miliaran parameter menggunakan kumpulan data yang ekstensif berkontribusi secara signifikan untuk mencapai pemahaman bahasa yang luas dan kemampuan pembuatan. Selain itu, model bahasa berskala besar menunjukkan kemampuan untuk menangani tugas-tugas baru dengan memanfaatkan beberapa contoh melalui pembelajaran in-context, few-shot.

Model Bahasa Ucapan (SpeechLM), yang merupakan model bahasa yang dilatih langsung pada ucapan, telah diperkenalkan oleh para peneliti, menandai dimulainya area penelitian yang aktif. Studi terbaru telah berkontribusi untuk memajukan bidang ini.

SPIRIT-LM

SPIRIT-LM diperkenalkan sebagai model bahasa multimodal dasar yang mengintegrasikan teks dan ucapan dengan mulus. Model ini dibangun di atas model bahasa teks yang telah dilatih sebelumnya dan memperluas kemampuannya untuk memasukkan ucapan melalui pelatihan berkelanjutan pada kombinasi data teks dan ucapan. Urutan teks dan ucapan digabungkan menjadi satu set token terpadu dan dilatih menggunakan pendekatan interleaving tingkat kata dengan korpus paralel ucapan-teks yang dikurasi.

SPIRIT-LM tersedia dalam dua varian: versi BASE yang menggunakan unit semantik ucapan dan versi EXPRESSIVE yang menggabungkan unit nada dan gaya untuk memodelkan ekspresivitas bersama unit semantik. Kedua versi mengodekan teks menggunakan token BPE subkata. Model yang dihasilkan menunjukkan perpaduan pemahaman semantik dari model teks dan kualitas ekspresif dari model ucapan.

Arsitektur SPIRIT-LM

  • Arsitektur SPIRIT-LM melibatkan model bahasa yang dilatih melalui prediksi token berikutnya. Token dihasilkan baik dari ucapan atau teks melalui encoder dan kemudian direkonstruksi kembali ke modalitas aslinya menggunakan decoder. Pelatihan model SPIRIT-LM mencakup kombinasi urutan teks saja, urutan ucapan saja, dan urutan ucapan-teks yang disisipkan.
  • Skema untuk menyisipkan ucapan dan teks melibatkan pengodean ucapan menjadi token (digambarkan dalam warna merah muda) menggunakan unit ucapan yang dikelompokkan seperti token Hubert, Nada, atau Gaya dan teks (digambarkan dalam warna biru) menggunakan BPE. Token khusus ([TEXT] untuk teks dan [SPEECH] untuk ucapan) digunakan untuk menandai modalitas masing-masing. Selama pelatihan, peralihan antar modalitas terjadi secara acak pada batas kata dalam korpus ucapan-teks yang selaras. Token ucapan dideduplikasi dan kemudian disisipkan dengan token teks pada batas tempat modalitas berubah.
  • Token ucapan ekspresif diperkenalkan untuk SPIRIT-LM-EXPRESSIVE. Token nada dan gaya disisipkan setelah deduplikasi. Kontribusi mereka adalah sebagai berikut:

Evaluasi dan Hasil

  • Mereka memperkenalkan SPIRIT-LM, model bahasa terpadu yang mampu menghasilkan ucapan dan teks. SPIRIT-LM dikembangkan dengan melakukan prapelatihan LLAMA 2 secara terus-menerus dengan data ucapan dan teks yang disisipkan. Mirip dengan Model Bahasa (LLM) berbasis teks, mereka mengamati bahwa SPIRIT-LM dapat dengan cekatan mempelajari tugas-tugas baru dalam pengaturan pembelajaran few-shot di seluruh teks, ucapan, dan tugas lintas modal (yaitu, ucapan-ke-teks dan teks-ke-ucapan).
  • Untuk menilai kemampuan ekspresif model generatif, mereka memperkenalkan benchmark SPEECHTEXT SENTIMENT PRESERVATION (STSP). Benchmark ini mengevaluasi seberapa efektif model generatif mempertahankan sentimen perintah dalam dan di seluruh modalitas untuk ekspresi lisan dan tulisan.
  • Terakhir, mereka mengusulkan varian ekspresif SPIRIT-LM, bernama SPIRIT-LM-EXPRESSIVE. Melalui penggunaan STSP, mereka menunjukkan bahwa SPIRIT-LM adalah model bahasa pertama yang mampu mempertahankan sentimen perintah teks dan ucapan dalam dan di seluruh modalitas.

Kesimpulan

Dengan kemajuan dalam Model Bahasa Besar (LLM) dan Model Bahasa Ucapan (SpeechLM), bersama dengan pendekatan inovatif untuk pembuatan perintah dan desain model, terdapat potensi besar untuk meningkatkan sistem pemahaman bahasa alami. Kemajuan ini dapat berdampak besar pada banyak bidang, seperti agen percakapan, asisten virtual, penerjemahan bahasa, dan alat aksesibilitas. Pada akhirnya, mereka dapat mengarah pada interaksi yang lebih nyata antara manusia dan mesin.