AI Umum

Dataset Domain Publik untuk Pelatihan LLM

Perkembangan Terbaru dalam Pelatihan LLM

Debat mengenai perlunya materi berhak cipta dalam pelatihan model AI teratas telah lama terjadi. Namun, perkembangan terbaru menantang pandangan konvensional ini, menunjukkan bahwa model bahasa besar dapat dilatih tanpa penggunaan materi berhak cipta yang kontroversial.

Common Corpus: Dataset Domain Publik untuk Pelatihan LLM

Inisiatif Common Corpus telah muncul sebagai dataset domain publik terbesar untuk pelatihan LLM. Kolaborasi internasional ini dipimpin oleh Pleias dan melibatkan peneliti dalam pelatihan awal LLM, etika AI, dan warisan budaya. Dataset multibahasa dan beragam ini menunjukkan potensi pelatihan LLM tanpa masalah hak cipta, menandai pergeseran signifikan dalam lanskap AI.

KL3M: Model LLM yang Terlatih Adil

Fairly Trained, sebuah organisasi nirlaba terkemuka di industri AI, telah mengambil langkah tegas menuju praktik AI yang lebih adil. Mereka telah memberikan sertifikasi pertama untuk LLM yang dibangun tanpa pelanggaran hak cipta, sebuah model yang dikenal sebagai KL3M. Dikembangkan oleh startup konsultan teknologi hukum yang berbasis di Chicago, 273 Ventures, KL3M tidak hanya sebuah model tetapi juga mercusuar harapan untuk AI yang adil.

DataPack Hukum Kelvin: Dataset Pelatihan yang Dikurasi

Kelvin Legal DataPack, sebuah dataset pelatihan yang dibuat dengan cermat oleh Fairly Trained, mencakup ribuan dokumen hukum yang ditinjau untuk mematuhi undang-undang hak cipta. Meskipun berukuran sekitar 350 miliar token, dataset ini adalah bukti kekuatan kurasi. Ini mungkin lebih kecil dari yang dikompilasi oleh OpenAI dan lainnya yang telah mengikis internet, tetapi kinerjanya luar biasa.

Pergeseran Lanskap AI

Munculnya Common Corpus dan KL3M menandakan pergeseran dalam lanskap AI. Para pendukung AI yang lebih adil, khususnya bagi seniman yang terkena dampak pengikisan data, melihat inisiatif ini sebagai hal penting dalam menantang norma. Sertifikasi terbaru Fairly Trained menunjukkan diversifikasi di luar LLM, mengisyaratkan cakupan yang lebih luas untuk sertifikasi AI.

Batasan Dataset Domain Publik

Meskipun dataset domain publik memiliki kelebihan, mereka juga memiliki keterbatasan. Banyak data domain publik yang tersedia sudah usang, terutama di wilayah seperti AS, di mana perlindungan hak cipta seringkali diperpanjang hingga 70 tahun setelah kematian penulis. Oleh karena itu, dataset ini mungkin tidak cocok untuk mendasarkan model AI pada urusan terkini.