AI Umum

Memprediksi Performa Model Bahasa pada Tugas Hilir dengan Mendefinisikan Ulang Efisiensi

Pendahuluan

Hukum penskalaan dalam kecerdasan buatan berfungsi sebagai panduan berguna untuk mengembangkan Model Bahasa Besar (LLM). Hukum-hukum ini mengoordinasikan pertumbuhan model, mengungkap pola pengembangan yang melampaui sekadar komputasi. Dengan setiap langkah maju, model-model ini menjadi lebih canggih, mengungkap seluk-beluk ekspresi manusia dengan akurasi yang cermat. Selain itu, hukum penskalaan memberikan potensi tak terbatas untuk bahasa, yang siap berada di ambang pemahaman dan penciptaan.

Studi Penskalaan

Biasanya dipelajari dalam rezim pelatihan optimal komputasi dan memprediksi kerugian pada prediksi token berikutnya. Namun, terdapat kesenjangan antara studi penskalaan saat ini dan bagaimana model bahasa akhirnya dilatih dan dievaluasi. Melatih LLM itu mahal, dan sering kali dilatih secara berlebihan untuk mengurangi biaya inferensi dan membandingkannya berdasarkan kinerja tugas hilir.

Prediksi Kinerja Tugas Hilir

Memprediksi kinerja tugas hilir adalah tantangan penting dalam pengembangan LLM. Penelitian ini menetapkan hukum penskalaan yang menghubungkan performa tugas hilir dengan perpleksitas model bahasa. Hukum ini digunakan untuk memprediksi rata-rata kesalahan top-1 pada tugas hilir untuk dua model yang membutuhkan waktu komputasi lebih sedikit.

Temuan

  • Hukum penskalaan yang diterapkan pada model yang lebih kecil yang dilatih mendekati optimal komputasi dapat secara efektif memperkirakan kinerja model yang lebih besar yang mengalami pelatihan berlebihan yang lebih ekstensif.
  • Untuk serangkaian konfigurasi model dengan rasio token pelatihan terhadap parameter yang konstan, kerugian yang dapat direduksi model mengikuti hukum pangkat yang konsisten.
  • Penurunan eksponensial dari kesalahan top-1 rata-rata seiring dengan penurunan kerugian evaluasi C4 menunjukkan bahwa kesalahan top-1 rata-rata dapat diprediksi dengan estimasi kerugian yang andal.

Kesimpulan

Penelitian ini secara efisien menangani penskalaan dalam rezim pelatihan berlebihan dan prediksi kinerja hilir. Ini menunjukkan bahwa perilaku penskalaan kerugian model yang dilatih melewati optimal komputasi dalam rezim pelatihan berlebihan dapat diprediksi. Selain itu, dengan menggunakan hukum penskalaan yang diusulkan, kinerja tugas rata-rata hilir dari proses yang lebih mahal dapat diprediksi menggunakan proksi skala yang lebih kecil.