AI Media

Terobosan Kecil Revolusioner dalam Pengenalan Suara Berbasis Edge

Menggerakkan aplikasi pengenalan suara pada perangkat IoT dengan sistem baru yang kecil dari Hugging Face

Para insinyur kecerdasan buatan dari platform kecerdasan buatan sumber terbuka Hugging Face telah menciptakan sistem pengenalan suara yang dirancang untuk bekerja dalam lingkungan dengan kapasitas memori rendah.

Distil-small.en hanya memiliki 166 juta parameter, tetapi sistem ini enam kali lebih cepat daripada Whisper v2 milik OpenAI, meskipun ukurannya 49% lebih kecil.

Sistem kecil ini merupakan versi penyulingan dari model Whisper. Dirancang untuk digunakan dalam implementasi di mana ruang dan daya pemrosesan terbatas.

Misalnya, distil-small.en dapat digunakan untuk menggerakkan kontrol suara pada perangkat IoT seperti pengontrol rumah pintar atau bahkan mobil dengan speaker pintar. Dengan ukurannya yang kecil, sistem ini bahkan dapat diintegrasikan ke dalam aplikasi seluler untuk pengenalan suara real-time, potensial digunakan dalam aplikasi terjemahan atau asisten yang diaktifkan suara.

Tim Hugging Face telah bekerja pada versi penyulingan dari Whisper milik OpenAI untuk beberapa waktu. Versi terbaru ini menggunakan empat lapisan dekoder, dibandingkan dengan dua lapisan sebelumnya. Sanchit Gandhi, seorang insinyur penelitian pembelajaran mesin di Hugging Face, mengatakan di Twitter bahwa lapisan dekoder tambahan “membantu mempertahankan akurasi transkripsi model pada ukuran model yang sangat kecil.”

Dalam hal kinerja, distil-small.en mencapai skor lebih tinggi dalam lingkungan laten yang lebih rendah dibandingkan dengan Whisper asli dan versi penyulingan lainnya. Namun, untuk lingkungan di mana lebih banyak memori tersedia, tim Hugging Face merekomendasikan penggunaan distil-medium.en atau distil-large-v2 “karena keduanya lebih cepat dan mencapai tingkat Kesalahan Kata (Word Error Rate/WER) yang lebih baik.”

Terkait: Whisper v3 milik OpenAI: Peningkatan Pengenalan Suara untuk Aplikasi Bisnis

Credit: Hugging Face

Versi penyulingan dari Whisper yang dibuat oleh Hugging Face saat ini hanya tersedia untuk pengenalan suara berbahasa Inggris. Tim di balik sistem ini mengatakan bahwa mereka sedang bekerja untuk menerapkannya ke dalam bahasa-bahasa lain.

Akses distil-small.en

Distil-small.en tersedia melalui Hugging Face. Ini tersedia di bawah lisensi MIT – yang berarti cocok untuk tujuan komersial. Namun, pengguna diwajibkan untuk tetap menyertakan pemberitahuan hak cipta dan izin dalam semua salinan perangkat lunak.

Hugging Face memamerkan model ini digunakan untuk transkripsi file audio pendek dan panjang.

Ada juga contoh inferensi di sebelah kanan halaman distil-small.en di situs Hugging Face di mana Anda dapat mendengar kemampuan pengenalan suaranya dalam aksi.