AI Umum

Memaksimalkan Efisiensi dalam Pelatihan AI: Penyelaman Mendalam ke dalam Praktik Pemilihan Data dan Arah Masa Depan

Pendahuluan

Keberhasilan model bahasa besar baru-baru ini sangat bergantung pada kumpulan data teks yang luas untuk pelatihan awal. Namun, penggunaan semua data yang tersedia secara sembarangan mungkin tidak optimal karena kualitasnya yang bervariasi. Metode pemilihan data sangat penting untuk mengoptimalkan kumpulan data pelatihan dan mengurangi biaya serta jejak karbon. Meskipun minat di bidang ini semakin besar, sumber daya yang terbatas menghambat penelitian yang ekstensif. Akibatnya, praktik pemilihan data yang efektif terkonsentrasi di beberapa organisasi, dengan temuan yang sering kali bersifat pribadi.

Tujuan Pemilihan Data

Pemilihan data dalam pembelajaran mesin bertujuan untuk mengoptimalkan kumpulan data, terutama meningkatkan kinerja model sekaligus mengatasi pengurangan biaya, integritas metrik, dan mengurangi bias. Pemilihan data sangat penting dalam model bahasa besar di berbagai tahap pelatihan, seperti pelatihan awal dan penyetelan halus. Penyaringan, pengikisan web, dan penilaian kualitas biasanya digunakan untuk menyusun data berkualitas tinggi dari korpus yang luas.

Kerangka Konseptual Terpadu untuk Pemilihan Data

Para peneliti dari Massachusetts Institute of Technology, Stanford University, dan lainnya mengusulkan kerangka konseptual untuk menyatukan berbagai metode pemilihan data, terutama yang berfokus pada pelatihan awal model. Mereka menekankan pentingnya memahami fungsi utilitas dan mekanisme pemilihan setiap metode. Dengan mengkategorikan metode ini dan membuat taksonomi, mereka bertujuan untuk menawarkan sumber daya komprehensif tentang praktik pemilihan data untuk pelatihan model bahasa. Mereka mengatur survei sebagai berikut:

  • Taksonomi pemilihan data mencakup definisi dasar istilah yang terkait dengan kumpulan data, seperti titik data, kumpulan data, dan distribusi kumpulan data.
  • Kerangka Konseptual Terpadu untuk Pemilihan Data membahas definisi pemilihan data dan komponen metode pemilihan data (seperti mekanisme pemilihan)
  • Pemilihan Data untuk Pelatihan Awal: Pelatihan awal model adalah untuk tujuan umum, dan kemudian, model dapat disetel dengan baik pada tugas-tugas tertentu. Oleh karena itu, dibutuhkan sejumlah besar data. Memilih data terbaik dari jumlah yang begitu besar bisa sangat mahal. Oleh karena itu, langkah pertama yang umum dalam proses ini adalah menghapus data dengan berbagai filter, dan beberapa filter kemungkinan besar perlu disalurkan bersama untuk mencapai kumpulan data yang diinginkan. Makalah ini mencakup penyaringan bahasa, penyaringan kualitas berbasis pengklasifikasi, dan penyaringan konten beracun dan eksplisit, dan berisi penyaringan penting.
  • Pemilihan Data untuk Penyetelan Halus Preferensi: Penyelarasan, Berbagai metode penyelarasan, yang disebut di bawah payung Metode Reinforcement Learning from Human Feedback (RLHF), RL from AI Feedback (RLAIF), atau Direct Preference Optimization (DPO), melibatkan integrasi preferensi manusia ke dalam perilaku model.

Kesimpulan

Para peneliti dari Massachusetts Institute of Technology, Stanford University, dan lainnya telah menguraikan metode untuk memilih kumpulan data untuk model bahasa besar. Mereka membahas berbagai aspek pemilihan data, termasuk metode untuk mendekontaminasi kumpulan uji, pertukaran antara menghafal dan generalisasi dalam pelatihan model, dampak strategi penyaringan pada bias model, dan alat yang tersedia untuk eksplorasi dan pemilihan data. Ini menekankan pentingnya memahami dan mengaudit kumpulan data sebelum menerapkan mekanisme pemilihan dan menyoroti ketersediaan alat sumber terbuka untuk menerapkan metode pemilihan data.