AI Umum

EscherNet: Model Difusi Berkondisi Multi-Pandangan untuk Sintesis Pandangan

Pendahuluan

Sintesis pandangan, yang merupakan bagian integral dari visi komputer dan grafis, memungkinkan pembuatan ulang pemandangan dari berbagai perspektif yang mirip dengan penglihatan manusia. Ini membantu dalam tugas-tugas seperti manipulasi objek dan navigasi sambil mendorong kreativitas.

Metode Sebelumnya

Pembelajaran representasi 3D saraf awal terutama mengoptimalkan data 3D secara langsung, yang bertujuan untuk meningkatkan kemampuan sintesis pandangan untuk aplikasi yang lebih luas di bidang ini. Namun, semua metode yang ada ini sangat bergantung pada geometri 3D kebenaran dasar, yang membatasi penerapannya pada data 3D sintetis skala kecil.

EscherNet

Para peneliti dari Dyson Robotics Lab, Imperial College London, dan The University of Hong Kong menyajikan EscherNet, model difusi berkondisi multi-pandangan yang mengontrol transformasi kamera yang tepat antara pandangan referensi dan target. Ini mempelajari representasi 3D implisit dengan pengodean posisi kamera khusus, yang menawarkan generalitas dan skalabilitas luar biasa dalam sintesis pandangan.

Meskipun dilatih dengan sejumlah pandangan referensi tetap, EscherNet dapat menghasilkan lebih dari 100 pandangan target yang konsisten pada satu GPU. Ini menyatukan tugas rekonstruksi 3D gambar tunggal dan multi-gambar.

Arsitektur

EscherNet mengintegrasikan model difusi 2D dan pengodean posisi kamera untuk menangani sejumlah pandangan arbitrer untuk sintesis pandangan. Ini menggunakan Stable Diffusion v1.5 sebagai tulang punggung, memodifikasi blok perhatian sendiri untuk memastikan konsistensi target-ke-target di beberapa pandangan.

Dengan menggabungkan Pengodean Posisi Kamera (CaPE), EscherNet secara akurat mengodekan pose kamera untuk setiap pandangan, memfasilitasi pembelajaran transformasi kamera relatif. Ini mencapai hasil berkualitas tinggi dengan mengodekan semantik tingkat tinggi dan detail tekstur tingkat rendah secara efisien dari pandangan referensi.

Hasil

EscherNet menunjukkan kinerja yang unggul di berbagai tugas dalam visi 3D. Dalam sintesis pandangan baru, ini mengungguli model difusi 3D dan metode rendering saraf, mencapai hasil berkualitas tinggi dengan lebih sedikit pandangan referensi. Selain itu, EscherNet unggul dalam pembuatan 3D, melampaui model canggih dalam merekonstruksi geometri 3D yang akurat dan menarik secara visual. Fleksibilitasnya memungkinkan integrasi yang mulus ke dalam alur kerja pembuatan teks-ke-3D, menghasilkan hasil yang konsisten dan realistis dari petunjuk tekstual.

Kesimpulan

Para peneliti dari Dyson Robotics Lab, Imperial College London, dan The University of Hong Kong memperkenalkan EscherNet, model difusi berkondisi multi-pandangan untuk sintesis pandangan yang dapat diskalakan. Dengan memanfaatkan arsitektur 2D Stable Diffusion dan CaPE yang inovatif, EscherNet secara efektif mempelajari representasi 3D implisit dari berbagai pandangan referensi, yang memungkinkan sintesis pandangan baru 3D yang konsisten. Pendekatan ini menunjukkan hasil yang menjanjikan untuk mengatasi tantangan dalam sintesis pandangan dan menawarkan potensi untuk kemajuan lebih lanjut dalam arsitektur saraf yang dapat diskalakan untuk visi 3D.