AI Umum

MusicMagus: Memaksimalkan Model Difusi untuk Pengeditan Teks-ke-Musik Zero-Shot

Pengantar

Pembuatan musik telah lama menjadi bidang yang menarik, memadukan kreativitas dengan teknologi untuk menghasilkan komposisi yang selaras dengan emosi manusia. Prosesnya melibatkan pembuatan musik yang sejalan dengan tema atau emosi tertentu yang disampaikan melalui deskripsi tekstual. Meskipun pengembangan musik dari teks telah mengalami kemajuan luar biasa, masih ada tantangan yang signifikan: mengedit musik yang dihasilkan untuk menyempurnakan atau mengubah elemen tertentu tanpa memulai dari awal. Tugas ini melibatkan penyesuaian rumit pada atribut musik, seperti mengubah suara instrumen atau suasana keseluruhan musik, tanpa memengaruhi struktur intinya.

Model AR dan Difusi

Model-model terutama dibagi ke dalam kategori autoregresif (AR) dan berbasis difusi. Model AR menghasilkan audio yang lebih panjang dan berkualitas lebih tinggi dengan mengorbankan waktu inferensi yang lebih lama, dan model difusi unggul dalam decoding paralel meskipun ada tantangan dalam menghasilkan urutan yang diperpanjang. Model MagNet yang inovatif menggabungkan keunggulan AR dan difusi, mengoptimalkan kualitas dan efisiensi.

Model-Model yang Ada

Model-model seperti InstructME dan M2UGen menunjukkan kemampuan pengeditan antar-stem dan intra-stem, Loop Copilot memfasilitasi pengeditan komposisi tanpa mengubah arsitektur atau antarmuka model asli.

MusicMagus: Pendekatan Baru

Para peneliti dari QMU London, Sony AI, dan MBZUAI telah memperkenalkan pendekatan baru bernama MusicMagus. Pendekatan ini menawarkan solusi canggih namun ramah pengguna untuk mengedit musik yang dihasilkan dari deskripsi teks. Dengan memanfaatkan model difusi tingkat lanjut, MusicMagus memungkinkan modifikasi yang tepat pada atribut musik tertentu sambil menjaga integritas komposisi asli.

Metodologi dan Hasil


MusicMagus menunjukkan kemampuannya yang tak tertandingi untuk mengedit dan menyempurnakan musik melalui metodologi canggih dan penggunaan dataset yang inovatif. Tulang punggung sistem ini dibangun di atas kecakapan model AudioLDM 2, yang menggunakan kerangka kerja variational autoencoder (VAE) untuk mengompresi spektogram audio musik menjadi ruang laten. Ruang ini kemudian dimanipulasi untuk menghasilkan atau mengedit musik berdasarkan deskripsi tekstual, menjembatani kesenjangan antara input tekstual dan output musik. Mekanisme pengeditan MusicMagus memanfaatkan kapasitas laten dari model berbasis difusi yang telah dilatih sebelumnya, sebuah pendekatan baru yang secara signifikan meningkatkan akurasi dan fleksibilitas pengeditannya.


Para peneliti melakukan eksperimen ekstensif untuk memvalidasi efektivitas MusicMagus, yang melibatkan tugas-tugas kritis seperti transfer timbre dan gaya, membandingkan kinerjanya dengan baseline yang mapan seperti AudioLDM 2, Transplayer, dan MusicGen. Analisis komparatif ini didasarkan pada penggunaan metrik seperti CLAP Similarity dan Chromagram Similarity untuk evaluasi objektif dan Overall Quality (OVL), Relevance (REL), dan Structural Consistency (CON) untuk penilaian subjektif. Hasilnya menunjukkan MusicMagus mengungguli baseline dengan peningkatan skor CLAP Similarity yang signifikan hingga 0,33 dan Chromagram Similarity sebesar 0,77, yang menunjukkan kemajuan signifikan dalam menjaga integritas semantik dan konsistensi struktural musik. Dataset yang digunakan dalam eksperimen ini, termasuk POP909 dan MAESTRO untuk tugas transfer timbre, telah memainkan peran penting dalam menunjukkan kemampuan superior MusicMagus dalam mengubah semantik musik sambil mempertahankan esensi komposisi asli.

Tantangan dan Batasan

Meskipun MusicMagus memperkenalkan kerangka kerja pengeditan teks-ke-musik yang canggih, ia menghadapi tantangan dengan pembuatan musik multi-instrumen, pengorbanan editabilitas versus fidelitas, dan mempertahankan struktur selama perubahan substansial. Selain itu, ada keterbatasan dalam menangani urutan panjang dan terbatas pada sampling rate 16kHz.


Kesimpulan

MusicMagus secara signifikan memajukan teknologi pengeditan musik dengan pendekatan inovatifnya terhadap transfer gaya dan timbre. Meskipun ada tantangan dan keterbatasan, MusicMagus merupakan kemajuan signifikan dalam pengeditan musik.