AI Umum

Benchmark Kemampuan Pemahaman Struktural LLM untuk Tabel

Pendahuluan

Kemampuan Large Language Model (LLM) dalam menyelesaikan tugas yang terkait dengan Natural Language Processing (NLP) dan Natural Language Generation (NLG) menggunakan penalaran few-shot telah meningkatkan popularitasnya. Namun, masih banyak penelitian yang diperlukan tentang pemahaman LLM terhadap data terstruktur, termasuk tabel. Tabel dapat diserialisasi dan digunakan sebagai input untuk LLM, tetapi belum banyak penelitian menyeluruh yang mengevaluasi seberapa baik LLM benar-benar memahami jenis data terstruktur ini.

Benchmark Kemampuan Pemahaman Struktural (SUC)

Untuk mengatasi hal ini, tim peneliti dari Microsoft telah menyajikan benchmark yang dimaksudkan untuk menilai Kemampuan Pemahaman Struktural (SUC) LLM. Benchmark ini terdiri dari tujuh tugas berbeda, seperti deteksi ukuran, pengambilan baris, dan pencarian sel, masing-masing dengan serangkaian kesulitannya sendiri. Versi model GPT-3.5 dan GPT-4 telah dievaluasi untuk lebih memahami bagaimana kinerja bervariasi tergantung pada opsi input yang dipilih.

Pengaruh Opsi Input pada Kinerja LLM

Studi ini menemukan bahwa sejumlah opsi input, termasuk penanda partisi, prompting peran, urutan konten, dan format input tabel, memengaruhi kinerja LLM.

Peningkatan Kinerja dengan Self-Augmentation

Berdasarkan hasil evaluasi benchmark, self-augmentation telah disarankan sebagai teknik prompting struktural yang berguna. Ini termasuk menggunakan pengetahuan internal LLM untuk tugas-tugas seperti rentang atau identifikasi nilai penting.

Teknik prompting struktural ini telah menunjukkan peningkatan yang baik dalam kinerja LLM pada berbagai tugas tabular, seperti TabFact, HybridQA, SQA, Feverous, dan ToTTo, ketika dipasangkan dengan pilihan input yang dipilih dengan baik. Tim telah membagikan bahwa telah terjadi peningkatan persentase akurasi yang signifikan, seperti TabFact dengan peningkatan 2,31%, HybridQA dengan 2,13%, SQA dengan 2,72%, Feverous dengan 0,84%, dan ToTTo dengan 5,68%.

Kontribusi Utama

Tim telah merangkum kontribusi utama mereka sebagai berikut:

  • Studi ini telah menyajikan benchmark yang dikenal sebagai Kemampuan Pemahaman Struktural (SUC) untuk mengevaluasi seberapa baik LLM dapat memahami dan menangani data terstruktur seperti tabel. Benchmark ini dimaksudkan sebagai cara metodis untuk menilai kemampuan pemahaman struktural LLM dalam berbagai tugas.
  • Studi ini telah menawarkan kesimpulan dan rekomendasi penting tentang opsi terbaik untuk format input tabular berdasarkan eksperimen menyeluruh dengan benchmark SUC. Hasil ini bertujuan untuk mengarahkan upaya penelitian di masa depan untuk mengoptimalkan bagaimana materi terstruktur disajikan kepada LLM, meningkatkan kinerja mereka pada tugas-tugas terkait tabel.
  • Studi ini telah mempromosikan penggunaan self-augmentation, sebuah teknik yang memanfaatkan pengetahuan LLM sendiri untuk meningkatkan kinerja mereka pada tugas-tugas yang melibatkan penalaran tabular. Melalui pemanfaatan strategi seperti penjelasan format, penandaan partisi, dan prompting self-augmented dalam bahasa markup seperti HTML, penelitian ini telah menunjukkan bagaimana LLM dapat meningkatkan hasil dengan memanfaatkan kemampuan mereka sendiri secara efisien.

Efektivitas Self-Augmentation

Lima kumpulan data penalaran tabular yang berbeda telah digunakan untuk menguji efektivitas strategi self-augmentation yang disarankan. Hasil yang sangat baik yang diamati di seluruh kumpulan data yang beragam ini menyoroti kemampuan beradaptasi dan potensi metode ini sebagai teknik sederhana namun dapat diterapkan secara global untuk meningkatkan kinerja LLM dalam memahami dan bernalar dengan data terstruktur.

Kesimpulan

Sebagai kesimpulan, studi ini menawarkan metodologi untuk menilai dan meningkatkan kinerja LLM pada tugas-tugas tabular serta wawasan tentang cara meningkatkan pengetahuan mereka tentang data terstruktur.