AI Umum

BABILong: Tolok Ukur Generatif untuk Menguji Model Pemrosesan Bahasa Alami (NLP) dalam Memproses Dokumen Panjang

Pendahuluan

Kemajuan di bidang Pembelajaran Mesin akhir-akhir ini telah menghasilkan ukuran input yang lebih besar untuk model. Namun, penskalaan kuadrat komputasi yang diperlukan untuk perhatian sendiri transformator menimbulkan batasan tertentu.

Teknik Memori Berulang

Penelitian terbaru telah menyajikan metode yang layak untuk memperluas jendela konteks dalam transformator dengan menggunakan memori berulang. Ini termasuk menambahkan memori berulang internal ke model bahasa yang sudah terlatih dan mengoptimalkannya untuk tugas-tugas tertentu yang melibatkan konteks panjang yang dibagi menjadi potongan-potongan yang lebih kecil.

Kerangka BABILong

Penelitian ini telah memajukan teknik memori berulang dengan menambahkan pengambilan dalam konteks berdasarkan penyematan memori berulang dari segmen input. Tim telah menyajikan kerangka BABILong, yang merupakan tolok ukur generatif untuk menguji model Pemrosesan Bahasa Alami (NLP) dalam memproses dokumen yang sangat panjang yang berisi fakta-fakta yang tersebar untuk menilai model dengan input yang sangat panjang.

Tujuan BABILong

Tujuan tolok ukur BABILong adalah untuk menilai seberapa baik model generatif mengelola konteks yang panjang. Ini termasuk memperpanjang durasi aktivitas saat ini dan menguji model untuk memisahkan detail yang relevan dari informasi penting dalam konteks yang panjang.

Pembuatan Tolok Ukur

Untuk melakukan ini, tim telah membuat contoh dengan menambahkan kalimat secara progresif dalam urutan alami dari kumpulan data latar belakang hingga contoh memiliki panjang yang sesuai. Buku-buku dari kumpulan data PG19 telah memberikan teks latar belakang, yang dipilih karena panjangnya yang signifikan dan konteks panjang yang terjadi secara alami.

Integrasi dengan bAbI

Tim telah berfokus pada peningkatan tolok ukur bAbI, yang awalnya dibuat untuk menilai fitur-fitur dasar penalaran. Tugas bAbI mensimulasikan karakter dan objek yang terlibat dalam gerakan dan interaksi, dengan pertanyaan berdasarkan fakta yang dibuat. Tugas bervariasi dalam kompleksitas, mengevaluasi penalaran spasial dan temporal, deduksi, resolusi coreference, dll.

Ketahanan Kebocoran Data

Tim telah berbagi bahwa tolok ukur yang dihasilkan, seperti bAbI dan BABILong, tidak rentan terhadap kebocoran data, berbeda dengan banyak tolok ukur NLP lainnya.

Tantangan Komputasi

Tim telah memilih tantangan komputasi yang mudah untuk menarik perhatian pada kekurangan dasar model yang digunakan saat ini untuk mengumpulkan data melalui konteks yang diperpanjang. Namun, dengan menggabungkan kalimat tugas dengan materi latar belakang, mereka juga telah mengusulkan bahwa pendekatan ‘jarum dalam tumpukan jerami’ dapat digunakan untuk mencakup tugas yang lebih kompleks.

Kontribusi Utama

Tim telah merangkum kontribusi utama mereka sebagai berikut:

  • Memperkenalkan BABILong, tolok ukur generatif untuk mengevaluasi efektivitas model NLP, yang signifikan dalam menangani dokumen panjang dengan data yang tersebar.
  • Melakukan analisis GPT-4 dan RAG pada tugas tanya jawab untuk skenario ‘jarum dalam tumpukan jerami’ dengan input jutaan token.
  • Mencapai rekor baru untuk ukuran urutan terbesar yang ditangani oleh satu model melalui evaluasi transformator memori berulang pada teks input hingga 11 juta token.