AI Umum

Model Bahasa Besar Multimodal: Merevolusi Estimasi Usia dan Jenis Kelamin

Pendahuluan

Perkembangan pesat Model Bahasa Besar Multimodal (MLLM), terutama yang mengintegrasikan modalitas bahasa dan visi (LVM), telah menjadi sorotan. Kemajuan mereka disebabkan oleh akurasi tinggi, kemampuan generalisasi, keterampilan penalaran, dan kinerja yang kuat. Model-model ini ahli dalam menangani tugas-tugas yang tidak terduga di luar cakupan pelatihan awal mereka.

MLLM Merevolusi Berbagai Bidang

MLLM merevolusi berbagai bidang, mendorong evaluasi ulang model khusus. Evolusi cepat mereka memicu minat untuk menggunakannya untuk tugas visi komputer seperti segmentasi objek dan mengintegrasikannya ke dalam alur kerja yang rumit seperti pengeditan gambar berbasis instruksi.

Membandingkan MLLM dan Model Khusus

Meskipun model seperti ShareGPTV berguna dalam tugas-tugas seperti anotasi data, kepraktisannya dalam produksi terbatas karena biayanya yang tinggi. Sebaliknya, model khusus seperti MiVOLO menawarkan solusi yang hemat biaya. Artikel ini membandingkan MLLM tujuan umum terbaik dengan model teknis seperti MiVOLO untuk memahami kemampuan mereka menggantikan model tersebut. Hasilnya menunjukkan perbedaan signifikan dalam biaya komputasi dan kecepatan untuk beberapa tugas, termasuk pelabelan data baru atau penyaringan kumpulan data lama.

MiVOLOv2: Model Terkini untuk Estimasi Jenis Kelamin dan Usia

Tim Peneliti dari SaluteDevices telah memperkenalkan MiVOLOv2, sebuah model yang tidak hanya mengungguli semua model khusus seperti CNN, ResNet34, dan GoogLeNet, tetapi juga versi pertama MiVOLO. Versi kedua ini, model tercanggih untuk penentuan jenis kelamin dan usia, menggunakan metrik evaluasi lanjutan seperti Mean Absolute Error (MAE) untuk estimasi usia, akurasi untuk prediksi jenis kelamin, dan Cumulative Score at 5 (CS@5) untuk estimasi usia.

Eksperimen Perbandingan

Tim juga melakukan eksperimen untuk membandingkan MLLM tujuan umum terbaik dengan model khusus, dengan tujuan mengukur semua MLLM SOTA seperti LLaVA 1.5 dan LLaVA-NeXT, ShareGPT4V dan ChatGPT4V. MiVOLO menggunakan potongan wajah dan tubuh untuk prediksi, sedangkan model lain membuat prediksi berdasarkan petunjuk dan gambar potongan tubuh. Ia menggunakan transformer untuk memperkirakan usia dan jenis kelamin dari input ini. Selain itu, kami menyempurnakan MLLM untuk estimasi jenis kelamin dan usia, membandingkannya dengan model khusus.

ChatGPT: Kinerja dalam Prediksi Atribut Wajah

Penulis mengeksplorasi kemampuan ChatGPT multimodal (ChatGPT4V), mengevaluasi kemahirannya dalam memprediksi atribut wajah dan melakukan tugas pengenalan wajah. Tanpa pelatihan apa pun, model tersebut mengungguli model pengenalan usia khusus tetapi berkinerja kurang efektif dalam klasifikasi jenis kelamin.

Peningkatan MiVOLOv2

Untuk MiVOLOv2, kumpulan data pelatihan diperluas sebesar 40% dari data sebelumnya yang digunakan di MiVOLO, dan sekarang berisi lebih dari 807.694 sampel: 390.730 laki-laki dan 416.964 perempuan. Sebagian besar gambar dipilih di mana MiVOLOv1 membuat kesalahan yang signifikan. Alur produksi dan beberapa data sumber terbuka, seperti LAION-5B, terutama digunakan untuk mencapai hal ini.

Kesimpulan

Artikel ini bertujuan untuk menilai kemanjuran MiVOLO2 dibandingkan dengan MLLM untuk tugas estimasi usia dan jenis kelamin. Versi kedua MiVOLO2 melampaui semua MLLM tujuan umum dalam estimasi usia dan berhasil memproses gambar individu. Hasilnya mendorong evaluasi komprehensif terhadap potensi jaringan saraf, termasuk LLaVA dan ShareGPT.