AI Umum

Judul: Magic-Me: Kerangka Kerja AI Baru untuk Pembuatan Video dengan Identitas yang Disesuaikan

Subjudul:

  • Pengantar
  • Tantangan dalam Pembuatan Video dengan Identitas yang Disesuaikan
  • Komponen Utama VCD
  • Kontribusi VCD
  • Hasil Eksperimen
  • Kesimpulan

Pengantar:

Pembuatan teks-ke-gambar (T2I) dan teks-ke-video (T2V) telah membuat kemajuan signifikan dalam model generatif. Sementara model T2I dapat mengendalikan identitas subjek dengan baik, memperluas kemampuan ini ke T2V tetap menjadi tantangan. Metode T2V yang ada membutuhkan kontrol yang lebih tepat atas konten yang dihasilkan, khususnya pembuatan khusus identitas untuk skenario terkait manusia. Upaya untuk memanfaatkan kemajuan T2I untuk pembuatan video perlu membantu menjaga identitas yang konsisten dan latar belakang yang stabil di seluruh bingkai. Tantangan ini berasal dari beragam gambar referensi yang memengaruhi token identitas dan perjuangan modul gerak untuk memastikan konsistensi temporal di tengah beragam input identitas.

Tantangan dalam Pembuatan Video dengan Identitas yang Disesuaikan:

Para peneliti dari ByteDance Inc. dan UC Berkeley telah mengembangkan Video Custom Diffusion (VCD), kerangka kerja yang sederhana namun ampuh untuk menghasilkan video yang dapat dikontrol oleh identitas subjek. VCD menggunakan tiga komponen utama: modul ID untuk ekstraksi identitas yang tepat, 3D Gaussian Noise Prior untuk konsistensi antar-bingkai, dan modul V2V untuk meningkatkan kualitas video. Dengan memisahkan informasi identitas dari noise latar belakang, VCD menyelaraskan ID secara akurat, memastikan keluaran video yang stabil. Fleksibilitas kerangka kerja memungkinkan untuk bekerja dengan lancar dengan berbagai model konten yang dihasilkan AI.

Komponen Utama VCD:

Kontribusi VCD mencakup kemajuan signifikan dalam pembuatan video khusus ID, teknik denoising yang kuat, peningkatan resolusi, dan pendekatan pelatihan untuk mitigasi noise dalam token ID. Dalam model generatif, kemajuan pembuatan T2I telah menghasilkan model yang dapat disesuaikan yang mampu membuat potret realistis dan komposisi imajinatif. Teknik-teknik seperti Textual Inversion dan DreamBooth menyempurnakan model yang telah dilatih sebelumnya dengan gambar khusus subjek, menghasilkan pengenal unik yang ditautkan ke subjek yang diinginkan. Kemajuan ini meluas ke pembuatan multi-subjek, di mana model belajar menyusun beberapa subjek menjadi gambar tunggal.

Hasil Eksperimen:

Beralih ke pembuatan T2V menghadirkan tantangan baru karena kebutuhan akan konsistensi spasial dan temporal di seluruh bingkai. Sementara metode awal menggunakan GAN dan VAE untuk video beresolusi rendah, pendekatan terbaru menggunakan model difusi untuk keluaran berkualitas lebih tinggi. Modul praproses, modul ID, dan modul gerak telah digunakan dalam kerangka kerja VCD. Selain itu, modul ControlNet Tile opsional meningkatkan video untuk resolusi yang lebih tinggi. VCD menyempurnakan modul gerak yang ada dengan 3D Gaussian Noise sebelum mengurangi bias eksposur selama inferensi. Modul ID menggabungkan token ID yang diperluas dengan masked loss dan prompt-to-segmentation, secara efektif menghilangkan noise latar belakang.

Kesimpulan:

Model VCD mempertahankan identitas karakter di berbagai model realistis dan bergaya. Para peneliti dengan cermat memilih subjek dari beragam kumpulan data dan mengevaluasi metode tersebut terhadap beberapa garis dasar menggunakan CLIP-I dan DINO untuk penyelarasan identitas, penyelarasan teks, dan kehalusan temporal. Detail pelatihan melibatkan penggunaan Stable Diffusion 1.5 untuk modul ID dan menyesuaikan kecepatan pembelajaran dan ukuran batch yang sesuai. Studi ini bersumber dari kumpulan data DreamBooth dan CustomConcept101 dan mengevaluasi kinerja model terhadap berbagai metrik. Studi ini menyoroti peran penting dari 3D Gaussian Noise Prior dan modul prompt-to-segmentation dalam meningkatkan kehalusan video dan penyelarasan gambar. Realistic Vision umumnya mengungguli Stable Diffusion, menggarisbawahi pentingnya pemilihan model.