AI Umum

Fine-Tuning Model Bahasa Besar (LLM): Pengertian dan Metode Terbaik

Pengertian Fine-Tuning

Fine-tuning adalah teknik untuk memodifikasi model bahasa yang telah dilatih untuk berkinerja baik dalam domain tertentu. Meskipun LLM memiliki kemampuan pemahaman dan produksi yang luar biasa, namun secara alami tidak cocok untuk menangani tugas atau domain khusus secara akurat. Dengan melatih ulang model pada kumpulan data domain khusus yang lebih kecil, fine-tuning mengatasi keterbatasan ini dan memungkinkan model memperoleh nuansa dan fitur khas dari domain yang dituju.

Metode Fine-Tuning

1. Fine-Tuning Efisien Parameter (PEFT)

PEFT berfokus pada efisiensi komputasi dengan memodifikasi parameter yang dapat dilatih dalam jaringan saraf. Pendekatan PEFT yang umum meliputi LoRA dan QLoRA.

a) LoRA

LoRA adalah metode PEFT yang berfungsi sebagai strategi berbasis adaptor. LoRA hanya menambahkan parameter baru selama fase pelatihan, tanpa mengubah arsitektur model secara permanen. Metode ini memungkinkan fine-tuning yang efisien parameter tanpa menambah lebih banyak parameter ke model secara keseluruhan.

b) QLoRA

QLoRA adalah peningkatan dari LoRA yang menggabungkan penyimpanan presisi rendah dengan teknik komputasi presisi tinggi. Tujuannya adalah untuk mempertahankan akurasi dan kinerja yang baik sambil menjaga model tetap kecil.

2. Fine-Tuning Terbimbing

Fine-tuning terbimbing adalah metode untuk mengoptimalkan LLM menggunakan kumpulan data berlabel khusus tugas. Inti dari pendekatan ini adalah bahwa setiap titik data input dalam kumpulan data ini diberi label dengan label atau respons yang akurat, yang bertindak sebagai panduan definitif bagi model selama fase pembelajarannya. Melalui fine-tuning terbimbing, model dimotivasi untuk menyesuaikan parameter internalnya guna mencapai prediksi label dengan akurasi tinggi.

a) Penyesuaian Hiperparameter Dasar

Metode dasar ini melibatkan penyesuaian hati-hati hiperparameter model dan variabel penting yang mengontrol proses pelatihan, seperti tingkat pembelajaran, ukuran batch, dan jumlah epoch pelatihan. Inti dari penyesuaian hiperparameter dasar adalah menemukan kombinasi ideal dari parameter-parameter ini yang memungkinkan model belajar dari data khusus tugas secara paling efektif.

b) Pembelajaran Transfer

Pembelajaran transfer sangat berguna ketika data khusus tugas langka. Ini dimulai dengan model yang telah dilatih sebelumnya pada kumpulan data berskala besar yang digunakan secara luas. Model kemudian disesuaikan menggunakan kumpulan data khusus tugas yang lebih kecil. Inti dari pembelajaran transfer adalah mentransfer pengetahuan umum yang diperoleh model sebelumnya dan menyesuaikannya dengan tugas baru.

c) Pembelajaran Beberapa Contoh

Pembelajaran beberapa contoh memungkinkan model untuk beradaptasi dengan cepat ke tugas baru menggunakan data khusus tugas sesedikit mungkin. Dengan memanfaatkan basis pengetahuan model yang telah dilatih sebelumnya yang luas, model dapat memahami tugas baru dalam beberapa contoh.

3. Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF)

RLHF adalah pendekatan untuk melatih model bahasa yang mengintegrasikan keterampilan evaluasi manusia dan pemahaman canggih ke dalam pembelajaran mesin. Teknologi ini memungkinkan model bahasa ditingkatkan, menghasilkan keluaran yang akurat, sesuai secara sosial dan kontekstual. Inti dari RLHF adalah kemampuannya untuk menggabungkan kekuatan pembelajaran algoritmik model dengan penilaian subjektif dari umpan balik manusia, memungkinkan model berkembang lebih alami dan lebih responsif.

a) Pemodelan Penghargaan

Pemodelan penghargaan melibatkan mengevaluasi kinerja model melalui evaluasi manusia dengan mengekspos model ke berbagai kemungkinan tanggapan. Evaluator mempertimbangkan berbagai faktor, seperti kesesuaian, koherensi, dan relevansi, saat menilai atau memberi peringkat keluaran ini. Model kemudian dilatih sebagai fungsi penghargaan menggunakan input manusia saat belajar memprediksi penghargaan untuk berbagai keluaran berdasarkan evaluasi manusia. Model menggunakan fungsi penghargaan yang dipelajari ini sebagai panduan untuk menyesuaikan keluarannya dari waktu ke waktu untuk memaksimalkan penghargaan ini dari manusia.

b) Optimalisasi Kebijakan Proksimal

Dalam paradigma RLHF, Optimalisasi Kebijakan Proksimal adalah langkah yang lebih teknis yang berfokus pada peningkatan kebijakan pengambilan keputusan model secara iteratif untuk meningkatkan hasil penghargaan yang diharapkan. Kunci efektivitas PPO adalah pendekatannya yang disengaja terhadap pembaruan kebijakan, yang mencoba membuat perubahan yang dapat dimodifikasi namun bertahap pada kebijakan model untuk mencegah perubahan dramatis yang dapat mengganggu lintasan pembelajaran.