AI Umum

EfficientViT-SAM: Model Segmentasi Apa Pun yang Dipercepat

Arsitektur EfficientViT-SAM

Arsitektur EfficientViT-SAM terdiri dari lima tahap. Tahap awal menggunakan blok konvolusi, sedangkan tahap akhir mengintegrasikan modul EfficientViT, yang berpuncak pada proses fusi fitur yang masuk ke kepala SAM. Desain arsitektur ini memastikan perpaduan fitur multi-skala yang mulus, meningkatkan kemampuan segmentasi model.

Proses Pelatihan

Proses pelatihan EfficientViT-SAM dimulai dengan penyulingan embedding gambar SAM-ViT-H ke EfficientViT. Model kemudian menjalani pelatihan menyeluruh pada kumpulan data SA-1B. Fase ini menggabungkan campuran petunjuk kotak dan titik, menggunakan kombinasi kerugian fokal dan dadu untuk menyempurnakan kinerja model. Strategi pelatihan, termasuk pilihan petunjuk dan fungsi kerugian, memastikan bahwa EfficientViT-SAM tidak hanya belajar secara efektif tetapi juga beradaptasi dengan berbagai skenario segmentasi.

Evaluasi Kinerja

Kinerja EfficientViT-SAM dievaluasi melalui pengujian yang cermat pada kumpulan data COCO dan LVIS, menggunakan segmentasi instans yang diminta kotak dan titik tunggal. Kinerja model, seperti yang dirinci dalam Tabel 2 dan 4, menunjukkan akurasi segmentasi yang unggul, terutama saat menggunakan petunjuk titik tambahan atau kotak pembatas kebenaran dasar. Selain itu, segmentasi dalam benchmark Wild lebih lanjut memvalidasi ketahanan EfficientViT-SAM dalam segmentasi tanpa bidikan di berbagai kumpulan data, dengan hasil kinerja yang dirangkum dalam Tabel 3. Hasil kualitatif, yang digambarkan pada Gambar 3, menyoroti kehebatan EfficientViT-SAM dalam menyegmentasikan objek dengan berbagai ukuran, menegaskan keserbagunaan dan kemampuan segmentasinya yang unggul.

Kesimpulan

EfficientViT-SAM berhasil menggabungkan kecepatan EfficientViT ke dalam arsitektur SAM, menghasilkan peningkatan efisiensi yang substansial tanpa mengorbankan kinerja. Hal ini membuka kemungkinan untuk aplikasi model segmentasi yang lebih luas, bahkan dalam skenario dengan keterbatasan sumber daya. Untuk memfasilitasi dan mendorong penelitian dan pengembangan lebih lanjut, model EfficientViT-SAM yang telah dilatih sebelumnya telah dibuat open-source.