AI Umum

MAGNET: Metode Non-Autoregresif Murni Pertama untuk Pembangkitan Audio Berbasis Teks

Pendahuluan

Kemajuan terbaru dalam pembelajaran representasi yang diawasi sendiri, pemodelan urutan, dan sintesis audio telah meningkatkan kinerja pembangkitan audio bersyarat secara signifikan. Pendekatan yang berlaku melibatkan representasi sinyal audio sebagai representasi terkompresi, baik diskrit atau kontinu, di mana model generatif diterapkan. Berbagai karya telah mengeksplorasi metode, seperti menerapkan Autoencoder Variasional Terkuantisasi Vektor (VQ-VAE) langsung pada bentuk gelombang mentah atau melatih model generatif berbasis difusi bersyarat pada representasi kontinu yang dipelajari.

MAGNET: Pembangkitan Audio Bertopeng Menggunakan Transformer Non-Autoregresif

Untuk mengatasi keterbatasan dalam pendekatan yang ada, peneliti di Tim FAIR META telah memperkenalkan MAGNET, akronim untuk pembangkitan audio bertopeng menggunakan transformer non-autoregresif. MAGNET adalah teknik pemodelan urutan generatif bertopeng baru yang beroperasi pada representasi multi-aliran sinyal audio. Tidak seperti model autoregresif, MAGNET bekerja secara non-autoregresif, secara signifikan mengurangi waktu inferensi dan latensi.

Pelatihan dan Inferensi

Selama pelatihan, MAGNET mengambil sampel tingkat masking dari penjadwal masking dan menutupi serta memprediksi rentang token input yang dikondisikan pada token yang tidak ditutupi. Secara bertahap membangun urutan audio keluaran selama inferensi menggunakan beberapa langkah decoding. Selain itu, mereka memperkenalkan metode penilaian ulang baru yang memanfaatkan model pra-latih eksternal untuk meningkatkan kualitas pembangkitan. Mereka juga mengeksplorasi versi Hibrida MAGNET, yang menggabungkan model autoregresif dan non-autoregresif. Dalam pendekatan hibrida, awal urutan token dihasilkan secara autoregresif, sementara sisa urutan didekode secara paralel.

Perbandingan dengan Model Autoregresif

Karya sebelumnya telah mengusulkan teknik pemodelan non-autoregresif serupa untuk tugas terjemahan mesin dan pembangkitan gambar. Namun, MAGNET berbeda dalam penerapannya pada pembangkitan audio, yang memanfaatkan spektrum frekuensi penuh sinyal. Mereka mengevaluasi MAGNET untuk tugas pembangkitan teks-ke-musik dan teks-ke-audio, melaporkan metrik objektif dan melakukan studi manusia. Hasilnya menunjukkan bahwa MAGNET mencapai hasil yang sebanding dengan dasar autoregresif sambil secara signifikan mengurangi latensi. Selain itu, mereka menganalisis kompromi antara model autoregresif dan non-autoregresif, memberikan wawasan tentang karakteristik kinerja mereka.

Kontribusi dan Dampak

Kontribusi mereka meliputi pengenalan MAGNET sebagai model non-autoregresif baru untuk pembangkitan audio, penggunaan model pra-latih eksternal untuk penilaian ulang, dan eksplorasi pendekatan hibrida yang menggabungkan pemodelan autoregresif dan non-autoregresif. Selain itu, karya mereka berkontribusi pada eksplorasi teknik pemodelan non-autoregresif dalam pembangkitan audio, menawarkan wawasan tentang efektivitas dan penerapannya dalam skenario dunia nyata.

Dengan secara signifikan mengurangi latensi tanpa mengorbankan kualitas pembangkitan, MAGNET membuka kemungkinan untuk aplikasi interaktif seperti pembuatan dan pengeditan musik di bawah Digital Audio Workstations (DAW). Selain itu, metode penilaian ulang yang diusulkan meningkatkan kualitas keseluruhan audio yang dihasilkan, semakin memperkuat kegunaan praktis dari pendekatan ini. Melalui evaluasi dan analisis yang cermat, mereka secara komprehensif memahami kompromi antara model autoregresif dan non-autoregresif, membuka jalan bagi kemajuan masa depan dalam sistem pembangkitan audio yang efisien dan berkualitas tinggi.