AI Umum

Pengodean yang Peduli Konteks untuk Meningkatkan Kemampuan Bahasa Model dalam Memperhatikan Konteks

Pengantar

Bahasa model (LM) telah menunjukkan efektivitasnya yang luar biasa dalam menghasilkan kelanjutan yang koheren dan lancar dari sebuah petunjuk atau awalan dokumen. Dalam langkah pembuatan teks, mereka biasanya bergantung pada dua sumber pengetahuan:

  • Pengetahuan sebelumnya: Dipelajari selama prapelatihan dan disimpan secara implisit dalam parameter model.
  • Pengetahuan konteks:
    Diteruskan sebagai input dalam konteks awalan.

Namun, masih menjadi pertanyaan terbuka bagaimana LM yang telah dilatih sebelumnya, khususnya LM vanilla tanpa penyesuaian halus khusus tugas, menyeimbangkan kedua sumber pengetahuan ini selama pembuatan. LM sering kali memerlukan bantuan untuk memberikan perhatian yang cukup pada konteks input dan menghasilkan teks yang tidak sesuai atau berisi halusinasi.

Masalah dengan Perhatian Konteks

Penelitian sebelumnya menunjukkan bahwa LM perlu memberikan perhatian lebih pada informasi baru yang diperkenalkan dalam pengetahuan konteks. Hal ini dapat menyebabkan halusinasi dalam peringkasan, di mana ringkasan yang dihasilkan mencakup fakta yang tidak ada dalam dokumen input (tetapi dipelajari oleh LM selama fase pelatihan). Perhatian yang lebih besar pada konteks menjadi masalah terutama ketika pengetahuan konteks bertentangan dengan pengetahuan sebelumnya.

Pengodean yang Peduli Konteks (CAD)

Peneliti dari University of Washington dan Meta AI menyajikan pengodean yang peduli konteks (CAD), yang mengikuti distribusi keluaran kontrastif yang memperkuat perbedaan antara probabilitas keluaran saat model digunakan dengan dan tanpa konteks. CAD sangat efektif dalam mengesampingkan pengetahuan sebelumnya model ketika bertentangan dengan konteks yang diberikan, yang mengarah pada peningkatan substansial dalam tugas di mana penyelesaian konflik pengetahuan sangat penting.

Cara Kerja CAD

CAD mengambil sampel dari distribusi keluaran baru, yang memperkuat perbedaan antara probabilitas keluaran dengan dan tanpa dokumen konteks. Ini memberikan bentuk pengodean kontrastif baru, yang secara efektif menurunkan bobot pengetahuan sebelumnya ketika informasi kontekstual yang lebih relevan diberikan.

CAD dapat digunakan dengan LM prapelatihan standar tanpa pelatihan tambahan. Mereka menyesuaikan distribusi probabilitas keluaran asli model menggunakan informasi timbal balik titik (PMI) antara konteks dan pembuatan yang dikondisikan pada input.

Hasil Eksperimental

Secara eksperimental, mereka telah menunjukkan bahwa CAD mengungguli algoritme pengodean standar dengan selisih yang besar pada semua delapan model di kedua kumpulan data. Secara khusus, ketika diterapkan pada LLAMA30B di CNN-DM, CAD menghasilkan peningkatan 21% dalam ROUGE-L, peningkatan 14,3% dalam factKB, dan peningkatan 7,8% dalam BERT-P. Hasil ini menunjukkan bahwa CAD dapat secara efektif meningkatkan kualitas dan faktualitas ringkasan yang dihasilkan dari beragam LM.

Kesimpulan

Para peneliti dari University of Washington dan Meta AI menyajikan CAD, yang mengikuti distribusi keluaran kontrastif yang memperkuat perbedaan antara probabilitas keluaran ketika model digunakan dengan dan tanpa konteks, untuk mendorong LM memberikan perhatian yang cukup pada konteksnya selama pembuatan. CAD, tanpa pelatihan tambahan, secara signifikan meningkatkan kesetiaan berbagai keluarga LM, termasuk OPT, GPT, LLaMA, dan FLAN-T5 untuk tugas peringkasan. CAD sangat efektif dalam mengesampingkan pengetahuan sebelumnya model ketika bertentangan dengan konteks yang diberikan, yang mengarah pada peningkatan substansial dalam tugas di mana penyelesaian konflik pengetahuan sangat penting.