AI Umum

Mora: Kerangka Kerja Multi-Agen Baru yang Memadukan Beberapa Agen AI Visual Canggih untuk Mereplikasi Pembuatan Video Generalis yang Ditunjukkan oleh Sora

Pendahuluan

Peneliti dari Lehigh University dan Microsoft memperkenalkan kerangka kerja multi-agen baru, Mora, untuk mengatasi tantangan memajukan teknologi pembuatan video. Meskipun dalam beberapa tahun terakhir, telah terjadi kemajuan signifikan dalam sintesis gambar dan teks, pembuatan video masih relatif belum dieksplorasi. Model yang ada kesulitan menghasilkan video berdurasi panjang yang melebihi 10 detik, membatasi kegunaan praktisnya. Model sumber tertutup seperti Sora oleh OpenAI menjadi penghalang inovasi dan replikasi dalam komunitas akademis.

Tujuan Penelitian

Makalah ini bertujuan untuk mereplikasi dan memperluas kemampuan Sora untuk berbagai tugas pembuatan video. Model seperti Pika dan Gen-2 menunjukkan kinerja yang menonjol, tetapi mereka memiliki keterbatasan dalam menghasilkan video yang lebih panjang dan tidak memiliki kemampuan yang ditunjukkan oleh Sora dalam lanskap pembuatan video saat ini.

Kerangka Kerja Mora

Tidak seperti model ini, Mora memanfaatkan kolaborasi di antara agen AI visual canggih untuk mencapai pembuatan video generalis. Mora menguraikan pembuatan video menjadi beberapa subtugas, masing-masing ditugaskan ke agen khusus, seperti pemilihan perintah, pembuatan teks-ke-gambar, pembuatan gambar-ke-video, dan pengeditan video-ke-video. Dengan merancang kolaborasi agen-agen ini, Mora bertujuan untuk mereplikasi dan memperluas kemampuan pembuatan video yang ditunjukkan oleh Sora.

Kemampuan Mora

Kerangka kerja multi-agen Mora memungkinkan pendekatan terstruktur namun fleksibel untuk pembuatan video. Dengan menggunakan agen AI canggih yang mengkhususkan diri dalam berbagai aspek proses pembuatan, Mora dapat menangani beragam tugas pembuatan video, termasuk pembuatan teks-ke-video, pembuatan gambar-ke-video bersyarat teks, memperpanjang video yang dihasilkan, pengeditan video-ke-video, menghubungkan video, dan mensimulasikan dunia digital. Setiap agen bertanggung jawab atas transformasi input-output tertentu, memastikan keluaran video yang koheren dan berkualitas tinggi.

Hasil Eksperimental

Hasil eksperimental menunjukkan kinerja Mora yang kompetitif, dengan metrik yang menunjukkan kemahirannya dalam menghasilkan video yang sangat mirip dengan yang dihasilkan oleh Sora. Meskipun terdapat kesenjangan kinerja antara Mora dan Sora, terutama dalam penilaian holistik, sifat sumber terbuka dan arsitektur multi-agen Mora menawarkan keuntungan signifikan dalam hal aksesibilitas, ekstensibilitas, dan potensi inovasi.

Kesimpulan

Sebagai kesimpulan, makalah ini menyajikan kerangka kerja Mora, solusi untuk tantangan memajukan teknologi pembuatan video. Dengan mereplikasi dan memperluas kemampuan model pembuatan video terkemuka seperti Sora, Mora meningkatkan kinerja pembuatan video dan tugas terkait. Pendekatan multi-agen Mora mengilustrasikan potensi sistem AI kolaboratif untuk memperluas batas sintesis visual, membuka kemungkinan untuk inovasi dan aplikasi di berbagai bidang. Meskipun Mora menunjukkan kinerja yang kompetitif, terutama dalam tugas tertentu, penyempurnaan dan optimalisasi lebih lanjut mungkin diperlukan untuk menjembatani kesenjangan kinerja dengan Sora secara komprehensif.