AI Umum

LightM-UNet: Jaringan Ringan yang Mengintegrasikan Mamba dan UNet untuk Segmentasi Citra Medis

Pendahuluan

Segmentasi citra medis sangat penting untuk diagnosis dan pengobatan, dan seringkali mengandalkan arsitektur simetris UNet untuk menggambarkan organ dan lesi secara akurat. Namun, sifat konvolusional UNet membatasi kemampuannya untuk menangkap informasi semantik global, sehingga menghambat efektivitasnya dalam tugas medis yang kompleks.

Integrasi Transformer dan Hambatannya

Integrasi arsitektur Transformer bertujuan untuk mengatasi keterbatasan ini, tetapi menimbulkan biaya komputasi yang tinggi, sehingga tidak cocok untuk pengaturan layanan kesehatan dengan sumber daya terbatas. Upaya untuk meningkatkan kesadaran global UNet mencakup lapisan konvolusional yang ditambah, mekanisme perhatian sendiri, dan piramida gambar, tetapi upaya ini gagal memodelkan dependensi jarak jauh secara efektif.

Integrasi Model Ruang Keadaan (SSM)

Studi terbaru mengusulkan integrasi Model Ruang Keadaan (SSM) untuk memperkaya UNet dengan kesadaran dependensi jarak jauh sambil mempertahankan efisiensi komputasi. Namun, solusi seperti U-Mamba memperkenalkan parameter dan beban komputasi yang berlebihan, sehingga menghambat kepraktisannya dalam pengaturan layanan kesehatan seluler.

LightM-UNet: Fusion Ringan UNet dan Mamba

Peneliti dari Laboratorium Kunci Teknologi Perangkat Lunak Kepercayaan Tinggi, Pusat Penelitian Teknik Nasional untuk Rekayasa Perangkat Lunak, Universitas Peking, Sekolah Ilmu Komputer, Universitas Peking, dan Institut Kecerdasan Buatan, Universitas Beihang telah mengusulkan LightM-UNet, fusi ringan UNet dan Mamba, dengan jumlah parameter hanya 1 juta.

Lapisan Mamba Visi Residual (RVM Layer)

Mereka menyarankan bahwa Lapisan Mamba Visi Residual (RVM Layer) diperkenalkan untuk mengekstrak fitur mendalam dengan cara Mamba murni, memperkuat kemampuan model untuk memodelkan dependensi spasial jarak jauh. Pendekatan ini secara efektif mengatasi kendala komputasi dalam pengaturan medis nyata, menandai upaya perintis dalam mengintegrasikan Mamba ke dalam UNet untuk optimalisasi.

Arsitektur LightM-UNet

LightM-UNet menggunakan arsitektur berbentuk U ringan yang mengintegrasikan Mamba. Dimulai dengan ekstraksi fitur dangkal melalui konvolusi mendalam, diikuti oleh Blok Pengkode yang menggandakan saluran fitur dan mengurangi resolusi menjadi setengahnya. Blok Leher Botol mempertahankan ukuran peta fitur sambil memodelkan dependensi jarak jauh. Blok Dekoder mengembalikan resolusi gambar melalui fusi fitur dan pengkodean.

Modul VSS dan RVM Layer

RVM Layer memperkaya pemodelan spasial jarak jauh, sementara Modul Visi Ruang Keadaan (VSS) meningkatkan ekstraksi fitur. LightM-UNet mengungguli nnU-Net, SegResNet, UNETR, SwinUNETR, dan U-Mamba pada kumpulan data LiTS, mencapai kinerja superior sambil secara signifikan mengurangi parameter dan biaya komputasi.

Kinerja dan Signifikansi

Dibandingkan dengan U-Mamba, LightM-UNet menunjukkan peningkatan 2,11% dalam mIoU rata-rata. Pada kumpulan data Montgomery&Shenzhen, LightM-UNet melampaui metode berbasis Transformer dan berbasis Mamba, menunjukkan kinerja luar biasa dengan jumlah parameter yang sangat rendah, mewakili pengurangan 99,14% dan 99,55% dibandingkan dengan nnU-Net dan U-Mamba, masing-masing.

Kesimpulannya, para peneliti telah memperkenalkan LightM-UNet, jaringan ringan yang mengintegrasikan Mamba. LightM-UNet melakukan tugas segmentasi 2D dan 3D mutakhir dengan hanya 1 juta parameter. Dibandingkan dengan arsitektur berbasis Transformer, ia menawarkan lebih dari 99% parameter lebih sedikit dan GFLOPS yang jauh lebih rendah dibandingkan dengan arsitektur berbasis Transformer terbaru. Ini memulai langkah penting menuju penerapan praktis dalam pengaturan layanan kesehatan dengan sumber daya terbatas, mengoptimalkan akurasi diagnostik dan efektivitas pengobatan. Studi ablasi yang ketat mengkonfirmasi efektivitas pendekatan ini, menandai pemanfaatan pertama Mamba sebagai strategi ringan untuk UNet.