AI Umum

ViewFusion: Membawa Revolusi Sintesis Pandangan dengan Teknik Penghilangan Derau Difusi Adaptif dan Pembobotan Piksel

Pendahuluan

Pembelajaran mendalam telah merevolusi sintesis pandangan dalam visi komputer, menawarkan beragam pendekatan seperti NeRF dan arsitektur gaya menyeluruh. Secara tradisional, metode pemodelan 3D seperti voxel, titik awan, atau jaring digunakan. Teknik berbasis NeRF secara implisit merepresentasikan adegan 3D menggunakan MLP. Kemajuan terbaru berfokus pada pendekatan gambar-ke-gambar, menghasilkan pandangan baru dari kumpulan gambar adegan. Metode ini sering kali memerlukan pelatihan ulang yang mahal per adegan, informasi pose yang tepat, atau bantuan dengan pandangan input variabel pada waktu pengujian. Terlepas dari kelebihannya, setiap pendekatan memiliki keterbatasan, menggarisbawahi tantangan yang sedang berlangsung di bidang ini.

ViewFusion: Pendekatan Generatif Canggih untuk Sintesis Pandangan

Para peneliti dari Departemen Ilmu Komputer dan Teknik Biomedis dan Neurosains di Universitas Aalto, Finlandia, System 2 AI, dan Pusat Kecerdasan Buatan Finlandia FCAI. telah mengembangkan ViewFusion. ViewFusion adalah metode generatif canggih untuk sintesis pandangan. Ini menggunakan penghilangan derau difusi dan pembobotan piksel untuk menggabungkan pandangan input yang informatif, mengatasi keterbatasan sebelumnya. ViewFusion dapat dilatih di berbagai adegan, beradaptasi dengan berbagai pandangan input, dan menghasilkan hasil berkualitas tinggi bahkan dalam kondisi yang menantang. Meskipun tidak membuat penyematan adegan 3D dan memiliki inferensi yang lebih lambat, ViewFusion mengungguli metode yang ada pada kumpulan data NMR.

Kelebihan ViewFusion

ViewFusion mengatasi keterbatasan metode sebelumnya dengan menjadi dapat dilatih dan digeneralisasikan di berbagai adegan dan kelas objek, secara adaptif mengambil sejumlah pandangan bebas pose yang bervariasi, dan menghasilkan pandangan yang masuk akal bahkan dalam kondisi yang sangat tidak ditentukan. Pendekatan ViewFusion untuk sintesis pandangan mencapai kinerja tingkat atas dalam metrik utama seperti PSNR, SSIM, dan LPIPS. Dievaluasi pada kumpulan data NMR yang beragam, ViewFusion secara konsisten menyamai atau melampaui metode terkini. ViewFusion unggul dalam menangani berbagai skenario, bahkan dalam kondisi yang menantang dan tidak ditentukan. Kemampuan beradaptasinya terlihat melalui kemampuannya untuk menggabungkan berbagai jumlah pandangan bebas pose secara mulus selama tahap pelatihan dan inferensi, secara konsisten memberikan hasil berkualitas tinggi terlepas dari jumlah pandangan input. Memanfaatkan sifat generatifnya, ViewFusion menghasilkan pandangan realistis yang sebanding dengan atau melampaui teknik terkini yang ada.

Kesimpulan

ViewFusion adalah solusi inovatif untuk sintesis pandangan, yang membanggakan kinerja terbaik dalam metrik seperti PSNR, SSIM, dan LPIPS. Kemampuan beradaptasi dan fleksibilitasnya melampaui metode sebelumnya dengan mengakomodasi berbagai pandangan bebas pose secara mulus dan menghasilkan keluaran berkualitas tinggi, bahkan dalam skenario yang menantang dan tidak ditentukan. Dengan memperkenalkan skema pembobotan dan memanfaatkan model difusi yang dapat dikomposisi, ViewFusion menetapkan standar baru di lapangan. Di luar aplikasi langsungnya, sifat generatif ViewFusion menjanjikan untuk mengatasi masalah yang lebih luas, menandainya sebagai kontribusi signifikan dengan aplikasi potensial di luar sintesis pandangan baru.