AI Umum

Kerangka Kecerdasan Buatan Baru untuk Memaksimalkan Kemampuan Pemodelan Konteks

Pendahuluan

Persepsi dan interpretasi ucapan sangat bergantung pada isyarat nonverbal seperti gerakan bibir, yang merupakan indikator visual yang fundamental bagi komunikasi manusia. Kesadaran ini telah memicu pengembangan berbagai metode pemrosesan ucapan berbasis visual. Teknologi ini mencakup Terjemahan Ucapan Visual (VST) yang lebih canggih, yang mengubah ucapan dari satu bahasa ke bahasa lain hanya berdasarkan isyarat visual, dan Pengenalan Ucapan Visual (VSR), yang menafsirkan kata-kata yang diucapkan hanya berdasarkan gerakan bibir.

Tantangan dalam Pemrosesan Ucapan Visual

Menangani homofon, atau kata-kata yang memiliki bunyi berbeda tetapi gerakan bibir yang sama, merupakan masalah utama dalam domain ini. Hal ini mempersulit pembedaan dan identifikasi kata secara akurat hanya dengan menggunakan isyarat visual.

Potensi Model Bahasa Besar (LLM)

Mengingat kemampuannya yang signifikan untuk memahami dan memodelkan konteks, Model Bahasa Besar (LLM) telah muncul dan terbukti berhasil di sejumlah sektor, menyoroti potensi mereka untuk mengatasi kesulitan tersebut. Kapasitas ini sangat penting untuk pemrosesan ucapan visual, karena memungkinkan pembedaan homofon yang kritis. Pemodelan konteks LLM dapat meningkatkan ketepatan teknologi seperti VSR dan VST dengan menyelesaikan ambiguitas yang ada dalam ucapan visual.

Kerangka VSP-LLM

Dalam penelitian terbaru, sebuah tim peneliti telah menyajikan kerangka kerja unik yang disebut Pemrosesan Ucapan Visual yang dikombinasikan dengan LLM (VSP-LLM) sebagai respons terhadap potensi ini. Paradigma ini secara kreatif menggabungkan pengetahuan berbasis teks dari LLM dengan pembicaraan visual.

VSP-LLM menggunakan model pengawasan mandiri untuk ucapan visual, menerjemahkan sinyal visual menjadi representasi pada tingkat fonem. Representasi ini kemudian dapat dihubungkan secara efisien ke data tekstual dengan memanfaatkan kekuatan LLM dalam pemodelan konteks.

Teknik Deduplikasi

Penelitian ini telah menyarankan teknik deduplikasi yang bertujuan untuk mempersingkat panjang urutan input untuk LLM agar memenuhi kebutuhan komputasi pelatihan menggunakan LLM. Dengan pendekatan ini, informasi yang berlebihan dideteksi dan dirata-ratakan menggunakan unit ucapan visual, yang merupakan representasi terdiskretisasi dari sifat ucapan visual. Ini mengurangi panjang urutan yang diperlukan untuk pemrosesan hingga setengahnya dan meningkatkan efisiensi komputasi tanpa mengorbankan kinerja.

Aplikasi VSP-LLM

Dengan fokus yang disengaja pada pengenalan dan penerjemahan ucapan visual, VSP-LLM menangani berbagai aplikasi pemrosesan ucapan visual. Karena kemampuan beradaptasinya, kerangka kerja ini dapat menyesuaikan fungsinya dengan tugas khusus berdasarkan instruksi.

Fungsi utama model ini adalah memetakan data video yang masuk ke ruang laten LLM dengan menggunakan model ucapan visual pengawasan mandiri. Melalui integrasi ini, VSP-LLM dapat lebih memanfaatkan pemodelan konteks yang kuat yang disediakan oleh LLM, meningkatkan kinerja secara keseluruhan.

Hasil Eksperimen

Tim tersebut telah berbagi bahwa eksperimen telah dilakukan pada tolok ukur dataset terjemahan MuAViC, yang telah menunjukkan efektivitas VSP-LLM. Kerangka kerja ini menunjukkan kinerja yang lebih baik dari yang diharapkan dalam pengenalan dan penerjemahan gerakan bibir, bahkan ketika dilatih dengan kumpulan data kecil yang hanya terdiri dari 15 jam data berlabel. Pencapaian ini sangat luar biasa jika dibandingkan dengan model terjemahan baru-baru ini yang dilatih pada kumpulan data yang agak lebih besar yang terdiri dari 433 jam data berlabel.

Kesimpulan

Kesimpulannya, penelitian ini mewakili kemajuan besar dalam pencarian teknologi komunikasi yang lebih akurat dan inklusif, dengan potensi manfaat untuk meningkatkan aksesibilitas, interaksi pengguna, dan pemahaman lintas bahasa. Melalui integrasi isyarat visual dan pemahaman kontekstual LLM, VSP-LLM tidak hanya mengatasi masalah terkini di area tersebut tetapi juga menciptakan peluang baru untuk penelitian dan penggunaan dalam interaksi manusia-komputer.