AI Umum

Inovasi Inbetweening Waktu dan Ruang Menggunakan Time Reversal Fusion (TRF)

Pendahuluan

Model image-to-video (I2V) telah menunjukkan kemampuan generalisasi yang tinggi. Namun, meskipun dapat menghasilkan situasi dinamis yang kompleks, model ini tidak memberikan kontrol yang memadai kepada pengguna.

Batasan Generasi Terbatas

Pengguna sering ingin mengontrol pembuatan bingkai antara dua titik akhir gambar, meskipun diambil pada waktu atau lokasi yang berbeda. Proses ini dikenal sebagai generasi terbatas. Model I2V saat ini tidak dapat melakukan generasi terbatas karena tidak dapat mengarahkan lintasan ke tujuan yang tepat.

Time Reversal Fusion (TRF)

Peneliti dari Max Planck Institute, Adobe, dan University of California memperkenalkan kerangka kerja I2V difusi untuk generasi terbatas tanpa pelatihan. Kerangka kerja ini memanfaatkan bingkai awal dan akhir sebagai informasi kontekstual.

Metode Generasi Terbatas Tanpa Pelatihan

Peneliti mengeksplorasi dua metode sederhana untuk generasi terbatas tanpa pelatihan: inpainting dan modifikasi kondisi. Mereka juga memperkenalkan pendekatan pengambilan sampel baru yang disebut Time Reversal Fusion (TRF) untuk model I2V.

TRF tidak memerlukan pelatihan atau penyesuaian, sehingga dapat memanfaatkan kemampuan pembuatan bawaan model I2V. TRF pertama-tama menghilangkan derau pada lintasan maju dan mundur waktu, berdasarkan bingkai awal dan akhir.

Transisi Bingkai yang Mulus

Untuk menangani batasan pada kedua ujung video yang dihasilkan, tim menerapkan Noise Re-Injection, sebuah proses stokastik, untuk memastikan transisi bingkai yang mulus. TRF menghasilkan video yang berakhir pada bingkai batas tanpa bergantung pada korespondensi piksel atau asumsi gerakan.

Evaluasi dan Keterbatasan

Peneliti mengevaluasi video yang dihasilkan melalui generasi terbatas menggunakan 395 pasang gambar sebagai titik awal dan akhir. Hasilnya menunjukkan bahwa model I2V besar yang dipadukan dengan generasi terbatas memungkinkan pemeriksaan gerakan yang dihasilkan untuk memahami “dinamika mental” model tersebut.

Salah satu keterbatasan pendekatan ini adalah stokastisitas bawaannya dalam membuat lintasan maju dan mundur. Selain itu, pendekatan ini mewarisi beberapa kekurangan SVD, seperti kurangnya pemahaman tentang konsep “akal sehat” dan konsekuensi kausal.