AI Umum

Universal-1: Model Pengenalan Ucapan Terbaru dari AssemblyAI

Pengantar

AssemblyAI telah meluncurkan Universal-1, model pengenalan ucapan terbarunya yang mengungguli Whisper-3 dari OpenAI. Model ini menawarkan akurasi dan kecepatan yang luar biasa, menetapkan standar baru dalam teknologi pengenalan ucapan.

Fitur Universal-1

  • Akurasi Terbaik: Universal-1 mencapai akurasi 13,5% lebih tinggi dibandingkan Whisper-3 dan 10% lebih tinggi dari sistem terbaik berikutnya yang diuji.
  • Efisiensi Tinggi:
    Model ini memproses 60 menit audio hanya dalam 38 detik, menunjukkan efisiensi dan kemampuannya dalam menangani data dalam jumlah besar dengan cepat.
  • Dukungan Multibahasa: Universal-1 mendukung bahasa Inggris, Spanyol, Prancis, dan Jerman, menjadikannya alat yang inklusif untuk pengguna global.
  • Pengurangan Halusinasi: Model ini secara signifikan mengurangi tingkat halusinasi sebesar 30% dalam data ucapan dan 90% dalam kebisingan sekitar.
  • Akurasi Timestamp dan Diarization: Universal-1 meningkatkan akurasi timestamp tingkat kata sebesar 13% dan akurasi estimasi jumlah pembicara, yang penting untuk aplikasi pengeditan audio dan video serta analisis percakapan.

Arsitektur dan Pelatihan

Universal-1 menggunakan sistem Conformer RNN-T berbasis parameter 600M dengan perhatian chunk-wise dan tokenizer WordPiece yang dilatih pada korpus teks multibahasa. Model ini dilatih pada 12,5 juta jam data audio multibahasa menggunakan kerangka kerja pembelajaran mandiri BEST-RQ.

Manfaat Universal-1

  • Akurasi dan efisiensi terbaik dalam pengenalan ucapan.
  • Dukungan multibahasa yang kuat untuk aplikasi global.
  • Peningkatan keandalan dengan pengurangan tingkat halusinasi.
  • Peningkatan akurasi timestamp dan kemampuan diarization pembicara.

Kesimpulan

Universal-1 dari AssemblyAI adalah terobosan dalam teknologi pengenalan ucapan, menawarkan akurasi dan kecepatan yang luar biasa. Model ini memberikan dukungan multibahasa yang kuat, mengurangi tingkat halusinasi, dan meningkatkan akurasi timestamp dan diarization pembicara. Universal-1 merevolusi pengenalan ucapan, menjadikannya lebih mudah diakses dan andal untuk berbagai bahasa dan aplikasi.