AI Umum

Cara Memprediksi Performa Model AI Anda Secara Tepat Sebelum Pelatihan Dimulai

Pendahuluan

Dalam model bahasa besar (LLM), lanskap data prapelatihan adalah perpaduan yang kaya dari berbagai sumber. Ini mencakup bahasa Inggris umum hingga bahasa yang kurang umum, termasuk percakapan kasual dan teks ilmiah, dan bahkan meluas ke modalitas seperti gambar dan pidato. Dalam perpaduan ini, data berinteraksi dengan cara yang kompleks, terkadang selaras dengan baik, menyimpang, dan terkadang bertentangan. Tantangannya terletak pada penyempurnaan proporsi perpaduan ini, memanfaatkan kekuatan setiap domain sambil meminimalkan potensi konflik yang melaluinya model yang dihasilkan memperoleh kemampuan yang ditingkatkan, sebuah bukti wawasan berharga yang diperoleh dari penggunaan dunia nyata yang ekstensif.

Meskipun sulit untuk mengetahui campuran data pelatihan yang ideal, sebagian besar praktik yang ada menyetel campuran melalui heuristik untuk meningkatkan sampel sebagian kecil data berkualitas tinggi atau yang kurang terwakili tanpa mengungkapkan kriteria konkret secara rinci. Memprediksi apakah strategi data ini efektif sebelum menyelesaikan pelatihan sangatlah sulit.

Hukum Pencampuran Data dan Pipa Prediksi

Terinspirasi oleh kemajuan dalam hukum penskalaan yang menunjukkan kerugian model pada serangkaian data evaluasi dapat diprediksi secara kuantitatif untuk berbagai variabel, ada prospek yang menarik. Jika prinsip ini juga berlaku untuk proporsi campuran, mereka dapat memperkirakan kinerja model yang dihasilkan bahkan sebelum memulai pelatihan.

Peneliti dari Universitas Fudan dan Laboratorium AI Shanghai memperkenalkan hukum pencampuran data dan pipa prediksi, yang memecahkan masalah memprediksi kerugian validasi secara akurat untuk campuran domain pelatihan di bawah ukuran model tetap dan jumlah data pelatihan.

Studi Percontohan

Peneliti melakukan Studi Percontohan tentang Kerugian Domain di bawah Campuran Dua Domain untuk memprediksi kerugian model terkait campuran data. Hal ini dicapai dengan melatih model bahasa 70 juta dan 160 juta pada campuran subset Github dan Pile-CC dari dataset Pile dengan lima proporsi campuran yang berbeda untuk Github. Semua model dilatih dengan ukuran batch 1 juta token untuk 30 ribu langkah, yaitu 30 miliar token.

Hasil

Makalah ini membahas berbagai tantangan dalam mengoptimalkan campuran data. Beberapa di antaranya adalah:

  • Penemuan prediktabilitas kuantitatif kinerja model terkait campuran data, meringkasnya menjadi hubungan fungsional, yaitu hukum pencampuran data.
  • Mengusulkan pipa untuk memprediksi kinerja model pelatihan skala besar pada proporsi campuran yang berbeda tetapi hanya bereksperimen pada model kecil dengan sedikit data pelatihan melalui hukum penskalaan pelatihan langkah, ukuran model, dan hukum pencampuran data.
  • Verifikasi eksperimental dari keandalan hukum pencampuran data dan pipa prediksi, menunjukkan efektivitasnya dalam mengoptimalkan kinerja model, menyeimbangkan kemampuan model, dan prospek memandu desain jadwal data.

Kesimpulan

Makalah ini memperkenalkan hukum pencampuran data dan pipa prediksi, yang memecahkan masalah memprediksi kerugian validasi secara akurat untuk campuran domain pelatihan di bawah ukuran model tetap dan jumlah data pelatihan. Penggunaan hukum penskalaan pelatihan langkah, ukuran model, dan campuran data secara bertingkat membuat prediksi hanya dengan eksperimen dalam skala kecil, memungkinkan penggunaan kembali eksperimen yang ada dan mengurangi biaya komputasi. Studi ini selanjutnya akan memfasilitasi studi kuantitatif dan analisis teoretis dengan fokus yang semakin meningkat pada rekayasa data.