AI Umum

GraphRAG: Peningkatan Performa RAG dengan Grafik Pengetahuan yang Dihasilkan LLM

Pengantar

Model Bahasa Besar (LLM) telah memperluas kemampuannya ke berbagai bidang, termasuk kesehatan, keuangan, pendidikan, hiburan, dll. Model ini memanfaatkan kekuatan Pemrosesan Bahasa Alami (NLP), Pembuatan Bahasa Alami (NLG), dan Visi Komputer untuk masuk ke hampir setiap industri. Namun, memperluas kekuatan LLM di luar data yang dilatih terbukti menjadi salah satu masalah terbesar dalam penelitian Model Bahasa.

GraphRAG: Solusi dari Microsoft Research

Untuk mengatasi hal ini, Microsoft Research telah menemukan solusi dengan memperkenalkan metode inovatif yang disebut GraphRAG. Pendekatan ini meningkatkan kinerja Pembuatan yang Diperkuat Pengambilan (RAG) dengan menggunakan grafik pengetahuan yang dihasilkan LLM. GraphRAG menawarkan langkah maju yang besar dalam situasi di mana metodologi RAG biasa tidak cukup untuk memecahkan masalah kompleks pada kumpulan data pribadi.

Performa yang Ditingkatkan

Pembuatan yang diperkuat pengambilan adalah teknik pengambilan informasi yang populer dalam sistem berbasis LLM. Sementara sebagian besar sistem RAG menggunakan kesamaan vektor untuk menentukan strategi pencarian, GraphRAG memperkenalkan grafik pengetahuan yang dihasilkan LLM. Modifikasi ini sangat meningkatkan kinerja sistem tanya jawab untuk menganalisis informasi kompleks yang terdapat dalam dokumen.

RAG dasar, yang dibuat untuk mengatasi masalah menangani data yang tidak termasuk dalam set pelatihan LLM, sering kali kesulitan memahami konsep semantik yang padat dan membuat hubungan antara bagian data yang tidak terkait. Analisis yang dilakukan telah menunjukkan bahwa GraphRAG telah memberikan solusi yang lebih canggih.

Analisis Kasus

Microsoft Research telah melakukan analisis untuk menunjukkan potensi GraphRAG dengan menggunakan kumpulan data Informasi Insiden Kekerasan dari Artikel Berita (VIINA). Hasilnya menunjukkan seberapa baik GraphRAG dibandingkan dengan RAG dasar, terutama dalam situasi di mana membuat koneksi dan memiliki pemahaman yang komprehensif tentang konsep semantik sangat penting. Tim juga telah membuat kumpulan data pribadi untuk pengambilan berbasis LLM mereka dengan menerjemahkan ribuan berita dari sumber Rusia dan Ukraina ke dalam bahasa Inggris.

Tim telah membagikan contoh di mana pertanyaan, yaitu, ‘Apa itu Novorossiya?’ ditanyakan dari RAG Dasar dan GraphRAG yang diperkenalkan. Kedua sistem bekerja dengan baik, tetapi ketika tim menguraikan pertanyaan sedikit dan bertanya, “Apa yang telah dilakukan Novorossiya?” RAG Dasar gagal merespons, sementara GraphRAG berkinerja baik.

Keunggulan GraphRAG

Tim telah berbagi bahwa ketika memberikan jawaban atas pertanyaan yang membutuhkan agregat data dari beberapa kumpulan data, GraphRAG telah mengungguli RAG dasar. GraphRAG mampu memberikan gambaran umum yang komprehensif tentang topik dan konsep dengan mengelompokkan kumpulan data pribadi ke dalam kelompok semantik yang relevan dengan bantuan grafik pengetahuan yang terstruktur.

GraphRAG mengisi jendela konteks dengan konten yang relevan, sangat meningkatkan bagian pengambilan RAG. Dengan demikian, jawaban yang lebih baik dengan informasi asal dihasilkan, memungkinkan pengguna untuk membandingkan hasil yang dihasilkan LLM dengan data sumber.

Proses GraphRAG

Sebagai bagian dari proses GraphRAG, LLM memproses seluruh kumpulan data pribadi, membuat referensi ke entitas dan hubungan dalam data sumber, dan menghasilkan grafik pengetahuan. Pengelompokan dari bawah ke atas grafik ini memungkinkan pra-ringkasan topik, yang secara hierarkis mengatur data ke dalam kelompok semantik.

Kesimpulan

GraphRAG adalah perkembangan besar di bidang Model Bahasa, menunjukkan kemampuan grafik pengetahuan yang dibentuk oleh LLM untuk memecahkan masalah rumit pada kumpulan data pribadi. Metodologi unik yang digunakan oleh Microsoft Research menciptakan jalan baru untuk eksplorasi data dan menetapkan GraphRAG sebagai instrumen yang ampuh untuk meningkatkan kemampuan pembuatan yang diperkuat pengambilan.