AI Umum

ChatMusician: LLM Sumber Terbuka yang Mengintegrasikan Kemampuan Musik Intrinsik

Perpaduan antara kecerdasan buatan (AI) dan seni, khususnya musik, telah menjadi bidang studi penting karena implikasinya yang mendalam bagi kreativitas manusia. Struktur dan kerumitan musik memberikannya tempat khusus, dan ada bukti yang menunjukkan bahwa musik dan bahasa mungkin memiliki nenek moyang yang sama.

Dalam beberapa tahun terakhir, terjadi perubahan di beberapa bidang yang disebabkan oleh Large Language Models (LLM) dan kemampuan luar biasa mereka dalam menghasilkan urutan yang panjang. Para peneliti telah menyelidiki metode untuk menghasilkan musik melalui pemodelan bahasa. Meskipun tampak serupa, ada banyak kendala unik yang harus diatasi dalam domain musik ketika berhadapan dengan musik simbolik, meskipun dapat didekati mirip dengan bahasa alami.

Para peneliti dari Skywork AI PTE. LTD. dan Universitas Sains dan Teknologi Hong Kong telah mengembangkan ChatMusician, sebuah LLM berbasis teks, untuk mengatasi masalah ini. Ini mengintegrasikan berbagai tugas pemahaman dan pembuatan musik simbolik, memungkinkan pengguna untuk memperluas repertoar mereka sambil mempertahankan atau meningkatkan kemampuan umum dasar mereka.

Pembuatan Corpus Musik

Seperti yang telah ditunjukkan oleh penelitian, tidak ada korpus bahasa alami yang dapat diakses publik yang secara khusus disesuaikan dengan musik saat ini. Untungnya, dimungkinkan untuk membangun korpus mereka sendiri dari salah satu dari banyak korpus berskala besar. Mereka menggunakan data dari berbagai area untuk membuat model berkomunikasi satu sama lain dan memahami instruksi bahasa alami.

Evaluasi Empiris

Model yang disarankan mengungguli GPT-4 dan baseline dalam beberapa tugas pembuatan musik, membuktikan bahwa model tersebut dapat menghasilkan komposisi yang terstruktur dengan baik dan logis dalam berbagai gaya musik, menurut penilaian empiris.

Pembuatan Benchmark MusicTheoryBenchmark

Metadata seperti judul lagu, deskripsi, album, artis, lirik, daftar putar, dan lainnya di-crawl untuk 2 juta rekaman musik di YouTube. Lima ratus ribu di antaranya diambil. Tim menggunakan GPT-4 untuk membuat ringkasan dari catatan metadata ini. Dengan menggunakan Self-instruct, mereka dapat menghasilkan pasangan QA pengetahuan musik. Garis besar topik mereka menyatakan bahwa GPT-4 menghasilkan 255 ribu instruksi dan balasan yang sesuai.

Penggabungan Matematika dan Kode

Mereka berhipotesis bahwa kekuatan penalaran musik simbolik dapat ditingkatkan dengan menggabungkan matematika dan kode, yang saat ini kurang dalam kumpulan data musik simbolik komunitas musik komputasi. Penelitian empiris menunjukkan bahwa ini meningkatkan fungsionalitas LLM musik.

Benchmark MusicTheoryBenchmark

Setiap kumpulan data, kecuali korpus umum, dibangun menggunakan forum diskusi untuk setidaknya satu putaran. Di satu sisi, ada verbal musik sebesar 10,42%, diikuti oleh kode sebesar 2,43%, notasi musik sebesar 18,43%, matematika sebesar 4,05%, dan umum sebesar 64,68%.

Tim juga melibatkan instruktur musik perguruan tinggi profesional untuk merancang MusicTheoryBenchmark menggunakan materi kursus tingkat perguruan tinggi dan ujian sebelumnya untuk menjamin paritas dengan standar pengujian manusia. Sekelompok musisi menelaah materi tersebut dan mendiskusikan serta meninjaunya beberapa kali. Pertanyaan-pertanyaan tersebut dipilih sendiri oleh tim dan kemudian diubah menjadi format string JSON dan ABC. Mereka kemudian mengurutkan pertanyaan menjadi dua kelompok: yang menguji pengetahuan musik dan yang menguji logika musik.

Tim menggunakan GPT-4 Azure API untuk menerjemahkan setengah dari pertanyaan dari bahasa Mandarin ke bahasa Inggris dan kemudian mengoreksinya. Guru tersebut berasal dari Tiongkok. Oleh karena itu, proses ini diulangi dua kali. 372 pertanyaan pilihan ganda membentuk tolok ukur akhir; setiap pertanyaan memiliki 4 kemungkinan jawaban, tetapi hanya satu yang dapat dianggap benar. Bagian pengetahuan musik berisi 269 pertanyaan, bagian penalaran musik memiliki 98 pertanyaan, dan 5 pertanyaan disisihkan untuk evaluasi beberapa bidikan.

Hasilnya menunjukkan bahwa LLM tidak terlalu baik dalam tolok ukur ini, yang menunjukkan ranah musik yang belum dieksplorasi yang perlu mendapat perhatian, mirip dengan kode dan penalaran matematika.

Sumber Terbuka

Untuk mendorong lebih banyak kerja sama di bidang ini, tim telah menjadikan semua komponen kerangka kerja—tolok ukur, skrip, dan korpus bahasa musik 4B-token MusicPile—sumber terbuka.

Keterbatasan

Versi ChatMusician saat ini terutama menciptakan musik dalam gaya Irlandia karena kumpulan data yang besar berasal dari genre ini. Karena tidak ada cukup variasi dalam instruksi musik yang dibuat dengan tangan, model mengalami halusinasi dan kesulitan untuk mendukung tugas pembuatan musik yang terbuka.