AI Umum

RAPTOR: Sistem Penelusuran Berbasis Pohon yang Menambah Pengetahuan LLMs dengan Informasi Kontekstual

Pendahuluan

Model bahasa yang ditingkatkan dengan penelusuran sering kali hanya mengambil potongan pendek dari sebuah korpus, sehingga membatasi konteks dokumen secara keseluruhan. Hal ini mengurangi kemampuannya untuk beradaptasi dengan perubahan keadaan dunia dan menggabungkan pengetahuan berekor panjang. Pendekatan yang ditingkatkan dengan penelusuran yang ada juga perlu diperbaiki. Yang kami tangani adalah bahwa sebagian besar metode yang ada hanya mengambil beberapa potongan teks pendek yang berdekatan, yang membatasi kemampuan mereka untuk mewakili dan memanfaatkan struktur wacana skala besar. Hal ini sangat relevan untuk pertanyaan tematik yang memerlukan integrasi pengetahuan dari beberapa bagian teks, seperti memahami keseluruhan buku.

Pengetahuan LLMs dan Tantangan

Perkembangan terkini dalam Model Bahasa Besar (LLM) menunjukkan keefektifannya sebagai penyimpanan pengetahuan mandiri, yang mengkodekan fakta dalam parameternya. Penyetelan halus tugas hilir semakin meningkatkan kinerjanya. Namun, tantangan muncul dalam memperbarui LLM dengan pengetahuan dunia yang terus berkembang. Pendekatan alternatif melibatkan pengindeksan teks dalam sistem pencarian informasi dan menyajikan informasi yang diambil ke LLM untuk pengetahuan spesifik domain terkini.

Keterbatasan Metode yang Ada

Metode yang ditingkatkan dengan penelusuran yang ada terbatas pada pengambilan hanya potongan teks pendek yang berdekatan, yang menghambat representasi struktur wacana skala besar, yang sangat penting untuk pertanyaan tematik dan pemahaman teks yang komprehensif seperti dalam kumpulan data NarrativeQA.

RAPTOR: Sistem Penelusuran dan Pengindeksan Inovatif

Para peneliti dari Universitas Stanford mengusulkan RAPTOR, sistem pengindeksan dan penelusuran inovatif yang dirancang untuk mengatasi keterbatasan dalam metode yang ada. RAPTOR menggunakan struktur pohon untuk menangkap detail tingkat tinggi dan tingkat rendah suatu teks. Ini mengelompokkan potongan teks, menghasilkan ringkasan untuk kelompok, dan membangun pohon dari bawah ke atas. Struktur ini memungkinkan pemuatan berbagai tingkat potongan teks ke dalam konteks LLM, memfasilitasi jawaban pertanyaan yang efisien dan efektif di berbagai tingkatan. Kontribusi utamanya adalah menggunakan ringkasan teks untuk peningkatan penelusuran, meningkatkan representasi konteks di berbagai skala, seperti yang ditunjukkan dalam eksperimen pada koleksi dokumen yang panjang.


Struktur Pohon dan Kinerjanya

RAPTOR mengatasi kedalaman semantik membaca dan masalah koneksi dengan membangun struktur pohon rekursif yang menangkap pemahaman tematik yang luas dan detail terperinci. Prosesnya melibatkan segmentasi korpus penelusuran menjadi beberapa bagian, menyematkannya menggunakan SBERT, dan mengelompokkannya dengan algoritma pengelompokan lunak berdasarkan Model Campuran Gaussian (GMM) dan Aproksimasi Manifold Seragam dan Proyeksi (UMAP). Struktur pohon yang dihasilkan memungkinkan kueri yang efisien melalui traversal pohon atau pendekatan pohon yang diciutkan, yang memungkinkan pengambilan informasi yang relevan pada berbagai tingkat spesifisitas. RAPTOR mengungguli metode dasar pada tiga kumpulan data tanya jawab: NarrativeQA, QASPER, dan QuALITY. Perbandingan kontrol menggunakan UnifiedQA 3B sebagai pembaca menunjukkan keunggulan RAPTOR yang konsisten dibandingkan BM25 dan DPR. Dipasangkan dengan GPT-4, RAPTOR mencapai hasil terbaik pada kumpulan data QASPER dan QuALITY, yang menunjukkan keefektifannya dalam menangani kueri tematik dan multi-hop. Kontribusi struktur pohon divalidasi, menunjukkan pentingnya simpul tingkat atas dalam menangkap pemahaman yang lebih luas dan meningkatkan kemampuan penelusuran.

Kesimpulan

Singkatnya, para peneliti Universitas Stanford memperkenalkan RAPTOR, sistem penelusuran berbasis pohon inovatif yang meningkatkan pengetahuan model bahasa besar dengan informasi kontekstual di berbagai tingkat abstraksi. RAPTOR membangun struktur pohon hierarkis melalui pengelompokan dan peringkasan rekursif, memfasilitasi sintesis informasi yang efektif dari berbagai bagian korpora penelusuran. Eksperimen terkontrol menunjukkan keunggulan RAPTOR dibandingkan metode tradisional, menetapkan tolok ukur baru dalam berbagai tugas tanya jawab. Secara keseluruhan, RAPTOR terbukti menjadi pendekatan yang menjanjikan untuk memajukan kemampuan model bahasa melalui penelusuran kontekstual yang ditingkatkan.