AI Umum

Dolma: Kumpulan Bahasa Inggris Terbuka dengan 3 Triliun Token untuk Penelitian Pra-Pelatihan Model Bahasa

Model Bahasa Besar (LBM) adalah tren terkini karena model ini telah memperoleh kepentingan signifikan untuk menangani tugas yang terkait dengan Pemrosesan Bahasa Alami (PBA), seperti tanya jawab, ringkasan teks, pembelajaran sedikit-shot, dll. Namun, model bahasa yang paling kuat dirilis dengan merahasiakan aspek penting pengembangan model. Kurangnya keterbukaan ini mencapai komposisi data pra-pelatihan model bahasa, bahkan ketika model tersebut dirilis untuk penggunaan publik. Memahami bagaimana susunan korpus pra-pelatihan memengaruhi kemampuan dan keterbatasan model menjadi rumit karena keburaman ini. Hal ini juga menghambat kemajuan ilmiah dan berdampak pada masyarakat umum yang menggunakan model ini.

Sebuah tim peneliti telah membahas transparansi dan keterbukaan dalam studi terbaru mereka. Untuk mempromosikan keterbukaan dan memfasilitasi studi pada pra-pelatihan model bahasa, tim tersebut telah memperkenalkan Dolma, korpus bahasa Inggris yang besar dengan tiga triliun token.

Sumber Data Dolma

Dolma telah dikumpulkan dari berbagai sumber, seperti ensiklopedia, publikasi ilmiah, repositori kode, literatur domain publik, dan informasi daring. Untuk mendorong eksperimen tambahan dan replikasi temuan mereka, tim tersebut telah menyediakan perangkat pembuatan data mereka untuk publik.

Tujuan Utama Dolma

Tujuan utama tim ini adalah untuk membuat penelitian dan pengembangan model bahasa lebih mudah diakses. Mereka telah menyoroti beberapa alasan untuk mempromosikan transparansi dan keterbukaan data, yang adalah sebagai berikut.

  • Pengembang dan pengguna aplikasi model bahasa membuat keputusan yang lebih baik dengan menyediakan data pra-pelatihan yang transparan.
  • Kehadiran dokumen dalam data pra-pelatihan telah dikaitkan dengan peningkatan kinerja pada tugas terkait, yang membuatnya penting untuk memperhatikan bias sosial dalam data pra-pelatihan.
  • Penelitian yang meneliti bagaimana komposisi data memengaruhi perilaku model memerlukan akses ke data pra-pelatihan terbuka.
  • Hal ini memungkinkan komunitas pemodelan untuk memeriksa dan memperbaiki teknik pembuatan data mutakhir, mengatasi masalah seperti atribusi data pelatihan, serangan adversarial, deduplikasi, menghafal, dan kontaminasi dari tolok ukur.
  • Pembuatan model bahasa terbuka yang efektif bergantung pada akses data.
  • Ketersediaan berbagai data pra-pelatihan skala besar merupakan pendorong penting bagi potensi fungsionalitas yang mungkin ditawarkan oleh model yang lebih baru, seperti kemampuan untuk menghubungkan generasi dengan data pra-pelatihan.

Kontribusi Utama Dolma

Tim tersebut telah membagikan catatan lengkap Dolma, termasuk deskripsi isinya, detail konstruksi, dan prinsip arsitektur. Mereka telah memasukkan analisis dan hasil eksperimen dari pelatihan model bahasa di beberapa tingkat menengah Dolma ke dalam makalah penelitian. Wawasan ini telah memperjelas teknik pembuatan data yang penting, seperti efek konten atau filter kualitas, teknik deduplikasi, dan keuntungan menggunakan campuran multi-sumber dalam data pelatihan.

OLMo, model dan kerangka bahasa terbuka mutakhir, telah dilatih menggunakan Dolma. OLMo telah dikembangkan untuk memajukan bidang pemodelan bahasa dengan menunjukkan kegunaan dan pentingnya korpus Dolma.

Tim tersebut telah merangkum kontribusi utama mereka sebagai berikut.

  • Korpus Dolma, yang terdiri dari kumpulan multifaset tiga triliun token dari tujuh sumber berbeda dan sering digunakan untuk pra-pelatihan model bahasa yang ekstensif, telah dirilis untuk publik.
  • Alat berkinerja tinggi dan portabel bernama Open Sourcing Dolma Toolkit telah diperkenalkan untuk membantu pembuatan data yang efektif untuk pra-pelatihan model bahasa.
  • Dengan bantuan perangkat ini, praktisi dapat membuat alur pembuatan data mereka sendiri dan menduplikasi upaya pembuatan data.