AI Umum

BASE TTS: Model Text-to-Speech (TTS) Besar yang Adaptif dan Dapat Dialirkan dengan Kemampuan yang Muncul

Kemajuan terkini dalam model pembelajaran mendalam generatif telah merevolusi bidang-bidang seperti Pemrosesan Bahasa Alami (NLP) dan Visi Komputer (CV). Sebelumnya, model khusus dengan pelatihan yang diawasi mendominasi domain ini, tetapi sekarang, pergeseran ke model umum yang mampu melakukan beragam tugas dengan sedikit panduan eksplisit terlihat jelas.

Model bahasa besar (LLM) dalam NLP telah menunjukkan keserbagunaan dengan berhasil menangani tugas-tugas seperti menjawab pertanyaan, analisis sentimen, dan ringkasan teks meskipun tidak dirancang khusus untuk itu. Demikian pula, dalam CV, model yang telah dilatih sebelumnya pada pasangan teks-gambar yang luas telah mencapai kinerja terbaik pada tolok ukur gambar-ke-teks dan telah menunjukkan hasil yang luar biasa dalam tugas teks-ke-gambar. Arsitektur berbasis transformator telah banyak memfasilitasi kemajuan ini, yang memanfaatkan kumpulan data yang jauh lebih besar daripada model sebelumnya.

Tren kemajuan serupa diamati dalam bidang Pemrosesan Ucapan dan Text-to-Speech (TTS). Model sekarang memanfaatkan ribuan jam data untuk menghasilkan ucapan yang semakin mendekati kualitas seperti manusia. Hingga tahun 2022, model TTS Neural terutama dilatih pada beberapa ratus jam data audio, yang membatasi kemampuan mereka untuk menggeneralisasi di luar data pelatihan dan secara eksplisit membuat teks yang kompleks dan ambigu.

Untuk mengatasi keterbatasan ini, para peneliti di Amazon AGI telah memperkenalkan BASE TTS, sistem TTS besar (LTTS) yang dilatih pada sekitar 100 ribu jam data ucapan domain publik. BASE TTS dirancang untuk memodelkan distribusi gabungan token teks dan representasi ucapan diskrit, yang dikenal sebagai kode ucapan. Kode ucapan ini sangat penting karena memungkinkan penerapan langsung metode yang dikembangkan untuk LLM. Dengan menggunakan transformator autoregresif khusus dekoder, BASE TTS dapat menangkap distribusi probabilitas yang kompleks dari ucapan ekspresif, sehingga meningkatkan rendering prosodi dibandingkan dengan sistem TTS neural awal.

Para peneliti juga mengusulkan kode ucapan yang tidak terkait dengan pembicara yang dibangun pada model ucapan Pembelajaran Mandiri (SSL) WavLM. Kode ucapan ini, yang bertujuan untuk menangkap hanya informasi fonemik dan prosodik, mengungguli metode kuantisasi dasar. Mereka dapat didekodekan menjadi bentuk gelombang berkualitas tinggi menggunakan dekoder yang sederhana, cepat, dan dapat dialirkan, bahkan dengan tingkat kompresi yang tinggi.

Kontribusi mereka meliputi memperkenalkan BASE TTS, model TTS terbesar hingga saat ini, mendemonstrasikan bagaimana penskalaannya ke kumpulan data dan ukuran model yang lebih besar meningkatkan kemampuannya untuk membuat prosodi yang sesuai untuk teks kompleks, dan memperkenalkan representasi ucapan diskrit baru yang mengungguli metode yang ada. Kemajuan ini mewakili kemajuan signifikan dalam bidang TTS dan meletakkan dasar untuk penelitian dan pengembangan di masa mendatang.