AI Umum

Dataset TVL: Penyelarasan Multimodal Sentuhan-Penglihatan-Bahasa

Pendahuluan

Persepsi biologis pada umumnya bersifat multimodal, memungkinkan agen mengintegrasikan dan mensintesis data dari berbagai sumber. Mengaitkan modalitas, termasuk penglihatan, bahasa, audio, suhu, dan perilaku robot, telah menjadi fokus penelitian terkini dalam pembelajaran representasi multimodal buatan. Namun, modalitas taktil masih belum banyak dieksplorasi dalam hal pemahaman multimodal.

Indra peraba kita memungkinkan kita mengidentifikasi berbagai tekstur permukaan, bahan, dimensi, dan gaya kontak. Selain itu, banyak penelitian telah menyelidiki asosiasi visual-taktil, mengembangkan generator lintas modal, dan menggunakan informasi lintas modal untuk kekasaran permukaan, klasifikasi kain, dan sifat material pada kosakata terbatas.

Namun, persepsi taktil pada manusia menunjukkan integrasi mendalam dengan bahasa dan menangkap berbagai informasi semantik, tidak terbatas pada korelasi taktil-visual. Kurangnya data yang beragam merupakan hambatan besar untuk integrasi sentuhan dan bahasa. Kami tidak mengetahui adanya dataset taktil yang menyertakan label bahasa kosakata terbuka, meskipun ada upaya untuk mengumpulkan dataset observasi taktil dan visual berpasangan dan dataset yang telah diberi label manusia untuk tekstur atau klasifikasi material berdasarkan sentuhan.

Pengumpulan Data TVL

Untuk mengumpulkan data sentuhan-penglihatan yang disinkronkan “di alam liar”, jauh dari lingkungan laboratorium yang terkontrol, para peneliti membuat perangkat genggam yang dipesan lebih dahulu. Dengan pengaturan ini, mereka dapat mengambil pembacaan taktil dan pengamatan visual jarak dekat saat mereka menekan dan menggeser permukaan dan objek latar depan yang berbeda pada berbagai latar belakang.

Penandaan Data

Deskripsi bahasa tentang pengalaman taktil bersifat subjektif dan berbeda antar individu, menambah hambatan lain pada proses pelabelan manusia yang sudah mahal. Untuk mengatasi masalah ini, penelitian sebelumnya tentang pelatihan VLM dan model bahasa besar (LLM) menunjukkan pemahaman bahasa penglihatan dengan melatih data yang disintesis sendiri atau oleh LLM yang ada. Para peneliti percaya bahwa LLM yang tersedia secara komersial (GPT-4V) dapat berfungsi sebagai penjudul yang baik untuk mengkompensasi tidak adanya data bahasa taktil berlabel dengan menghasilkan deskripsi taktil berdasarkan pengamatan visual.

Model dan Evaluasi

Para peneliti dari UC Berkeley, Meta AI, dan TU Dresden memperkenalkan dataset Touch-Vision-Language (TVL), sebuah dataset inovatif yang terdiri dari 44.000 pengamatan taktil penglihatan berpasangan. Manusia mengomentari 10% data, sementara GPT-4V memberi label pada data yang tersisa. Dengan menggunakan dataset ini, para peneliti melatih pengkode taktil dengan pembelajaran kontrastif berpasangan di antara ketiga modalitas daripada menggabungkan semua modalitas ke penglihatan. Mereka melatih pengkode taktil yang kompatibel dengan modalitas visual dan tekstual dengan memanfaatkan pengkode penglihatan dan bahasa OpenCLIP yang ada. Menggunakan kemampuan kategorisasi sentuhan-penglihatan dan sentuhan-bahasa pengkode, mereka menilai keselarasan. LLaMA2 7B kemudian disetel dengan baik untuk memberikan deskripsi tekstual tentang gambar taktil menggunakan pengamatan visual dan taktil, memanfaatkan dataset dan pengkode taktil terlatih.

Benchmark Touch-Vision-Language yang diusulkan meminta model multimodal untuk menghasilkan deskripsi taktil. Kemudian, ia menggunakan LLM untuk menentukan seberapa baik deskripsi tersebut cocok dengan komentar manusia yang dibuat di lapangan. Secara statistik, model bahasa sentuhan-penglihatan yang diusulkan mengungguli VLM sumber terbuka (+32% peningkatan) dan GPT-4V (+12% peningkatan), model penghasil label, pada Tolok Ukur TVL, meskipun dilatih pada data berlabel manusia dalam jumlah yang relatif sedikit.

Implikasi dan Aplikasi

Tim percaya bahwa para peneliti yang tertarik dengan metode pembelajaran berbasis label semu mungkin menemukan pekerjaan ini bermanfaat, dan juga dapat berguna untuk model generatif besar yang mempertimbangkan sentuhan di masa depan. Selain itu, metodologi yang disajikan akan membantu meningkatkan digitalisasi sentuhan dan aplikasi sentuhan robotik.