AI Umum

Teknik Tanda Air Audio AudioSeal dari Meta AI untuk Deteksi Lokal Ujaran Buatan AI

Pendahuluan

Kecerdasan Buatan (AI) telah mengalami kemajuan pesat dalam dekade terakhir dan kini menjadi bagian dari otomatisasi berbagai aplikasi. Inovasi baru yang lebih efisien dari pendahulunya terus bermunculan. AI Generatif, sub-bagian dari AI yang mampu membuat konten realistis, telah mengalami peningkatan popularitas yang pesat. AI ini kini mampu menghasilkan konten yang tidak dapat dibedakan dari konten asli, menimbulkan banyak ancaman keamanan dan privasi. Pembuatan ucapan dan kloning suara adalah dua bidang yang sangat terpengaruh oleh model AI ini, yang meningkatkan risiko penipuan dan penyebaran informasi yang salah.

AudioSeal: Tanda Air Audio untuk Deteksi Lokal Ujaran Buatan AI

Untuk mengatasi masalah ini, para peneliti di Meta telah memperkenalkan AudioSeal, teknik tanda air audio yang dirancang khusus untuk deteksi lokal ucapan yang dihasilkan AI. Tanda air adalah teknik yang digunakan untuk mendeteksi audio sintetis. Teknik ini menyisipkan sinyal ke dalam audio yang dihasilkan, yang tidak dapat didengar oleh telinga tetapi dapat dideteksi oleh algoritme tertentu.

Namun, metode tanda air saat ini tidak disesuaikan untuk deteksi dan tidak terlokalisasi, yaitu, metode ini mempertimbangkan seluruh audio, sehingga sulit untuk mengidentifikasi segmen ucapan yang dihasilkan AI dalam keseluruhan klip.

AudioSeal melatih dua model secara bersamaan – generator dan detektor. Generator membuat sinyal tanda air yang disematkan ke dalam audio input, dan detektor mengembalikan probabilitas keberadaan tanda air. Model detektor telah dilatih dengan menutupi tanda air di bagian audio acak, sehingga memungkinkan deteksi ucapan sintetis secara tepat dalam klip audio yang lebih panjang. Selain itu, model ini juga dapat mengidentifikasi posisi tanda air dalam audio.

Keunggulan AudioSeal

Para peneliti juga memperkenalkan kerugian berkelanjutan baru yang terinspirasi oleh penutup pendengaran yang memungkinkan model mencapai hasil yang lebih baik dalam hal ketidakjelasan sinyal tanda air. Mereka juga memperluas AudioSeal ke tanda air multi-bit, yang memungkinkan atribusi audio ke model atau versi tertentu tanpa memengaruhi sinyal deteksi.

Hasil evaluasi menunjukkan bahwa AudioSeal secara signifikan mengungguli model WavMark dalam kecepatan komputasi dan mencapai deteksi dua kali lebih cepat. Model ini juga menunjukkan ketahanan canggih terhadap berbagai manipulasi audio di kehidupan nyata dengan deteksi yang tepat terhadap perubahan kecil dalam audio.

Kesimpulan

AudioSeal adalah metode yang kuat untuk deteksi proaktif dan lokalisasi ucapan sintetis. Model ini mengatasi masalah yang tidak ditangani sepenuhnya oleh pendahulunya dan mencapai kinerja yang jauh lebih baik daripada model WavMark dalam hal lokalisasi, atribusi, dan efisiensi. Metode ini sangat penting dalam mendeteksi tambalan audio sintetis, yang tentunya akan membantu memastikan privasi dan keamanan individu.