AI Umum

AI yang Bisa “Melihat” dan Memahami Konteks Layar

Resolusi Referensi

Dalam pemrosesan bahasa alami (NLP), resolusi referensi merupakan tantangan penting karena melibatkan penentuan anteseden atau referensi kata atau frasa dalam sebuah teks, yang sangat penting untuk memahami dan menangani berbagai jenis konteks dengan sukses. Konteks tersebut dapat berkisar dari putaran dialog sebelumnya dalam sebuah percakapan hingga elemen non-percakapan, seperti entitas di layar pengguna atau proses latar belakang.

Peningkatan Kemampuan Model Bahasa Besar (LLM)

Para peneliti bertujuan untuk mengatasi masalah inti tentang cara meningkatkan kemampuan model bahasa besar (LLM) dalam menyelesaikan referensi, terutama untuk entitas non-percakapan. Penelitian yang ada mencakup model seperti MARRS, yang berfokus pada resolusi referensi multimodal, terutama untuk konten di layar. Transformer visi dan model visi+teks juga telah berkontribusi pada kemajuan, meskipun persyaratan komputasi yang besar membatasi penerapannya.

ReALM: Resolusi Referensi Sebagai Pemodelan Bahasa

Peneliti Apple mengusulkan Resolusi Referensi Sebagai Pemodelan Bahasa (ReALM) dengan merekonstruksi layar menggunakan entitas yang diurai dan lokasinya untuk menghasilkan representasi layar yang murni tekstual dan secara visual mewakili konten layar. Bagian layar yang merupakan entitas kemudian ditandai sehingga LM memiliki konteks di sekitar tempat entitas muncul dan teks apa yang mengelilinginya (misalnya: hubungi nomor bisnis). Mereka juga mengklaim bahwa ini adalah karya pertama yang menggunakan LLM yang bertujuan untuk mengodekan konteks dari layar sepengetahuan mereka.

Untuk menyempurnakan LLM, mereka menggunakan model FLAN-T5. Pertama, mereka memberikan input yang diurai ke model dan menyempurnakannya, hanya berpegang pada parameter penyempurnaan default. Untuk setiap titik data yang terdiri dari kueri pengguna dan entitas yang sesuai, mereka mengubahnya menjadi format kalimat yang dapat dimasukkan ke LLM untuk pelatihan. Entitas diacak sebelum dikirim ke model sehingga model tidak terlalu sesuai dengan posisi entitas tertentu.

Kinerja ReALM

ReALM mengungguli model MARRS di semua jenis kumpulan data. Ini juga dapat mengungguli GPT-3.5, yang memiliki jumlah parameter yang jauh lebih besar daripada model ReALM dengan beberapa kali lipat. ReALM berkinerja sama dengan GPT-4 terbaru meskipun merupakan model yang jauh lebih ringan (dan lebih cepat). Para peneliti telah menyoroti keuntungan pada kumpulan data di layar dan menemukan bahwa model ReALM dengan pendekatan pengkodean tekstual dapat bekerja hampir sebaik GPT-4 meskipun yang terakhir dilengkapi dengan tangkapan layar.

Kesimpulan

Penelitian ini memperkenalkan ReALM, yang menggunakan LLM untuk melakukan resolusi referensi dengan mengodekan kandidat entitas sebagai teks alami. Mereka menunjukkan bagaimana entitas di layar dapat diteruskan ke LLM menggunakan representasi tekstual unik yang secara efektif merangkum layar pengguna sambil mempertahankan posisi spasial relatif dari entitas ini. ReALM mengungguli pendekatan sebelumnya dan berkinerja hampir sama baiknya dengan LLM tercanggih saat ini, GPT-4, meskipun memiliki lebih sedikit parameter, bahkan untuk referensi di layar, meskipun hanya dalam domain tekstual. Ini juga mengungguli GPT-4 untuk ujaran pengguna khusus domain, sehingga menjadikan ReALM pilihan ideal untuk sistem resolusi referensi praktis.