AI Umum

EscherNet: Model Difusi Berkondisi Multi-Tampilan untuk Sintesis Tampilan

Pendahuluan

Sintesis tampilan merupakan tugas penting dalam visi komputer dan grafis, yang memungkinkan pembuatan ulang adegan dari berbagai sudut pandang, mirip dengan mata manusia. Kemampuan ini sangat penting untuk tugas sehari-hari dan mendorong kreativitas dengan memungkinkan pembayangan dan pembuatan objek mendalam dengan perspektif.

Observasi Utama

Para peneliti di Dyson Robotics Lab bertujuan untuk mengatasi tantangan sintesis tampilan yang dapat diskalakan dengan mempertimbangkan dua observasi utama.

  1. Sementara kemajuan terbaru difokuskan pada kecepatan pelatihan dan efisiensi rendering, kemajuan tersebut sangat bergantung pada rendering volumetrik dan pengodean khusus adegan. Mereka mengusulkan pergeseran ke arah pembelajaran representasi 3D umum berdasarkan semata-mata pada warna dan geometri adegan tanpa memerlukan geometri 3D kebenaran dasar atau sistem koordinat tertentu. Pendekatan ini memungkinkan skalabilitas dengan mengatasi kendala yang diberlakukan oleh pengodean khusus adegan.

  2. Sintesis tampilan dapat dibingkai sebagai masalah pemodelan generatif bersyarat, mirip dengan pelukisan gambar generatif, di mana model harus memberikan beberapa prediksi yang masuk akal berdasarkan tampilan referensi yang jarang. Mereka berpendapat untuk formulasi generatif yang lebih fleksibel yang mengakomodasi berbagai tingkat informasi masukan, secara bertahap menyatu menuju representasi kebenaran dasar karena lebih banyak data tersedia.

EscherNet

Berdasarkan wawasan ini, mereka memperkenalkan EscherNet, model difusi bersyarat gambar-ke-gambar untuk sintesis tampilan. EscherNet memanfaatkan arsitektur transformator dengan perhatian diri produk titik untuk menangkap hubungan antara tampilan referensi-ke-target dan target-ke-target. Sebuah inovasi utama adalah Pengodean Posisi Kamera (CaPE), yang mewakili 4 Derajat Kebebasan (DoF) dan 6 DoF pose kamera, memungkinkan perhitungan perhatian diri berdasarkan transformasi kamera relatif.

Karakteristik EscherNet

EscherNet menunjukkan karakteristik luar biasa yang membedakannya dalam bidang sintesis tampilan.

  1. EscherNet mencapai tingkat konsistensi yang tinggi dengan mengintegrasikan konsistensi tampilan melalui Pengodean Posisi Kamera (CaPE), yang mendorong koherensi antara tampilan referensi dan target.

  2. EscherNet menunjukkan skalabilitas yang sangat baik dengan melepaskan diri dari sistem koordinat tertentu dan menghindari operasi 3D yang mahal, membuatnya dapat beradaptasi dengan data gambar 2D sehari-hari.

  3. Kemampuan generalisasi yang mengesankan memungkinkan EscherNet untuk menghasilkan tampilan target berdasarkan berbagai jumlah tampilan referensi, meningkatkan kualitas karena lebih banyak referensi disediakan.

Evaluasi

Evaluasi komprehensif di seluruh sintesis tampilan dan tolok ukur rekonstruksi 3D menunjukkan kualitas generasi EscherNet yang unggul dibandingkan dengan model yang ada, terutama di bawah kendala tampilan terbatas. Ini menggarisbawahi efektivitas pendekatan mereka dalam memajukan sintesis tampilan dan visi 3D.