AI Umum

Swin3D++: Arsitektur AI yang Ditingkatkan Berbasis Swin3D untuk Pretraining Efisien pada Titik Awan 3D Multisumber

Pendahuluan

Titik awan merupakan representasi umum data 3D, dengan ekstraksi fitur titik demi titik menjadi sangat penting untuk berbagai tugas yang berkaitan dengan pemahaman 3D. Meskipun metode pembelajaran mendalam telah membuat kemajuan signifikan dalam domain ini, metode tersebut sering kali bergantung pada kumpulan data yang besar dan beragam untuk meningkatkan pembelajaran fitur, sebuah strategi yang umumnya digunakan dalam pemrosesan bahasa alami dan visi 2D. Namun, kelangkaan dan anotasi data 3D yang terbatas menimbulkan tantangan signifikan bagi pengembangan dan dampak pretraining 3D.

Analisis Perbedaan Domain

Salah satu solusi langsung untuk mengatasi masalah kelangkaan data adalah dengan menggabungkan beberapa kumpulan data 3D yang ada dan menggunakan data gabungan tersebut untuk pretraining tulang punggung 3D universal. Namun, pendekatan ini mengabaikan perbedaan domain di antara titik awan 3D yang berbeda, seperti variasi dalam kepadatan titik, sinyal, dan karakteristik kebisingan. Perbedaan ini dapat berdampak buruk pada kualitas dan kinerja pretraining. Oleh karena itu, perlu dilakukan analisis perbedaan domain di antara kumpulan data pemandangan dalam ruangan 3D dan mengidentifikasi faktor-faktor utama yang dapat memengaruhi pretraining multisumber.

Arsitektur Swin3D++

Berdasarkan analisis perbedaan domain, arsitektur baru yang disebut Swin3D++ diperkenalkan untuk memperluas kerangka kerja Swin3D untuk pretraining multisumber, yang mengatasi masalah perbedaan domain. Kontribusi utamanya meliputi desain mekanisme khusus domain untuk Swin3D, seperti prompt voksel khusus domain untuk menangani distribusi voksel yang jarang dan tidak merata di seluruh domain, skema penyematan sinyal relatif kontekstual yang dimodulasi domain untuk menangkap variasi sinyal khusus domain, dan penyematan fitur awal khusus domain dan normalisasi lapisan untuk menangkap prior sumber data secara terpisah. Selain itu, strategi augmentasi sumber digunakan untuk secara fleksibel meningkatkan jumlah data pelatihan dan meningkatkan pretraining jaringan.

Evaluasi dan Hasil

Pretraining multisumber terawasi Swin3D++ dilakukan pada dua kumpulan data pemandangan dalam ruangan dengan karakteristik berbeda: Structured3D dan ScanNet. Kinerja dan generalisasi Swin3D++ dievaluasi pada berbagai tugas hilir, termasuk segmentasi semantik 3D, deteksi 3D, dan segmentasi instans. Hasilnya menunjukkan bahwa Swin3D++ mengungguli metode mutakhir di seluruh tugas ini, menunjukkan peningkatan kinerja yang signifikan. Studi ablasi komprehensif juga dilakukan untuk memvalidasi efektivitas desain arsitektur.

Kesimpulan

Pengembangan Swin3D++ merupakan kemajuan signifikan dalam mengatasi tantangan yang ditimbulkan oleh perbedaan domain dalam pretraining multisumber untuk tugas pemahaman 3D. Swin3D++ secara efektif meningkatkan pembelajaran fitur dan meningkatkan kinerja model di berbagai tugas hilir dengan menggabungkan mekanisme khusus domain dan memanfaatkan strategi augmentasi sumber. Kinerja superior pada tugas-tugas seperti segmentasi semantik 3D, deteksi, dan segmentasi instans menyoroti efektivitas pendekatan yang diusulkan. Selain itu, temuan ini menggarisbawahi pentingnya mempertimbangkan perbedaan domain dalam kumpulan data 3D dan potensi fine-tuning parameter khusus domain untuk pembelajaran yang efisien dan efektif. Swin3D++ berkontribusi pada kemajuan visi 3D dan meletakkan dasar untuk penelitian di masa depan dalam mengatasi tantangan kelangkaan data di domain pembelajaran mesin dan kecerdasan buatan lainnya.