AI Umum

Pembelajaran Struktur Terpadu untuk Pemahaman Dokumen Tanpa OCR dengan mPLUG-DocOwl 1.5

Pengenalan

Model Bahasa Besar Multimodal (MLLM) telah dikembangkan dalam beberapa tahun terakhir untuk tugas pemahaman penglihatan dan bahasa. MLLM telah menunjukkan hasil yang menjanjikan dalam memahami gambar umum dengan menyelaraskan penyandi visual terlatih sebelumnya (misalnya, Vision Transformer) dan LLM dengan modul Vision-to-Text (V2T).

Namun, model-model ini masih perlu meningkatkan pemahaman dan ekstraksi teks dari gambar yang berisi informasi teks yang kaya, seperti dokumen, halaman web, tabel, dan bagan. Alasan utamanya adalah penyandi visual dan modul V2T dilatih pada pasangan gambar-teks umum dan harus dioptimalkan secara khusus untuk merepresentasikan informasi tekstual dan struktural dalam gambar yang kaya teks.

Pembelajaran Struktur Terpadu

Untuk meningkatkan pemahaman dokumen visual dengan MLLM, penelitian sebelumnya seperti mPLUG-DocOwl, Docpedia, dan Ureader mencoba merancang tugas membaca teks untuk memperkuat kemampuan pengenalan teks. Namun, mereka harus lebih memperhatikan pemahaman struktur atau mencakup domain terbatas dari gambar yang kaya teks, seperti halaman web atau dokumen.

Peneliti dari Alibaba Group dan Renmin University of China telah memperkenalkan DocOwl 1.5, Pembelajaran Struktur Terpadu, untuk meningkatkan kinerja MLLM. Pembelajaran Struktur Terpadu terdiri dari tugas penguraian yang sadar akan struktur dan tugas lokalisasi teks multi-butir di lima domain: dokumen, halaman web, tabel, bagan, dan gambar alami.

H-Reducer: Modul Vision-to-Text

Untuk mengodekan informasi struktur dengan lebih baik, mereka telah merancang modul vision-to-text yang sederhana dan efektif, H-Reducer, yang tidak hanya dapat mempertahankan informasi tata letak tetapi juga mengurangi panjang fitur visual dengan menggabungkan patch yang berdekatan secara horizontal melalui konvolusi, memungkinkan LLM memahami gambar resolusi tinggi secara lebih efisien.

Arsitektur Model

DocOwl 1.5 mengikuti arsitektur khas MLLM: penyandi visual, modul vision-to-text, dan LLM sebagai dekoder.

Evaluasi

DocOwl 1.5 dievaluasi pada pengujian di sepuluh tantangan, dari dokumen dan tabel hingga bagan dan tangkapan layar halaman web. Dibandingkan dengan model lain, bahkan yang memiliki jumlah parameter besar, DocOwl 1.5 melampaui semuanya. DocOwl 1.5 juga mengungguli CogAgent pada InfoVQA dan ChartQA dan mencapai kinerja yang sebanding pada DocVQA. Hal ini menunjukkan bahwa pembelajaran struktur terpadu dengan DocStruct4M lebih efisien dalam mempelajari pengenalan teks cetak dan cara menganalisis dokumen.

Kesimpulan

Peneliti dari Alibaba Group dan Renmin University of China telah mengusulkan DocOwl 1.5, Pembelajaran Struktur Terpadu di lima domain gambar kaya teks, termasuk tugas penguraian yang sadar akan struktur dan tugas lokalisasi teks multi-butir. Untuk mempertahankan struktur dan informasi spasial dengan lebih baik selama penyelarasan fitur penglihatan dan bahasa, mereka merancang modul vision-to-text yang sederhana dan efektif bernama H-Reducer. DocOwl 1.5 mencapai kinerja tanpa OCR terbaik pada sepuluh tolok ukur pemahaman dokumen visual.