AI Umum

Solusi Baru dari IBM: Pembuatan Data Sintetis

Data Sintetis

Chatbot modern bergantung pada model bahasa besar (LLM) yang telah dilatih sebelumnya pada teks mentah untuk memperoleh pemahaman abstrak tentang bahasa. Hal ini mempersiapkan mereka untuk akuisisi tugas yang cepat setelah melihat instruksi yang terperinci dan berlabel selama penyelarasan. Namun, data instruksional yang andal tidak mudah diakses. Manusia tidak mampu membuatnya, dan biasanya tidak memiliki keluasan dan kedalaman yang dibutuhkan chatbot untuk menangani situasi yang tidak biasa, kompleks, atau sulit. Meskipun data sintetis jauh lebih terjangkau, data ini sering kali memiliki masalah yang sama yaitu monoton.

Pengembang LLM

Pengembang LLM dapat menentukan informasi dan kemampuan yang ingin mereka masukkan ke dalam chatbot mereka menggunakan pendekatan pembuatan data berbasis taksonomi IBM. Untuk membantu pengembang menemukan dan mengisi kesenjangan pengetahuan, taksonomi mengatur kemampuan dan pengetahuan LLM saat ini secara sistematis dan hierarkis. LLM kedua, model guru, menggunakan taksonomi untuk menghasilkan pasangan pertanyaan dan jawaban khusus tugas yang dianggap sebagai instruksi berkualitas tinggi.

Pertimbangkan skenario berikut: Anda ingin chatbot membuat email yang menguraikan keuangan perusahaan pada kuartal ketiga dan mengirimkannya ke CEO. Kandidat yang ideal akan memiliki pengalaman dengan laporan keuangan, mahir dalam aritmatika dan penalaran dasar, serta memiliki kemampuan untuk mendeskripsikan fakta keuangan secara ringkas dan persuasif dalam sebuah email. Pengembang LLM dapat memulai skenario yang dibuat-buat ini dengan mengunggah akun keuangan perusahaan bersama dengan beberapa contoh perhitungan untuk pendapatan perusahaan. Catatan keuangan akan menjadi dasar untuk instruksi yang dihasilkan oleh model guru. Dengan cara itu, instruksi baru dapat dibuat jika peraturan akuntansi berubah. Cara lain adalah dengan meminta model guru memberi tahu LLM dasar cara menghitung pendapatan. Opsi ketiga melibatkan pengembang yang memberikan contoh email laporan pendapatan, yang kemudian digunakan model guru untuk melatih model dasar untuk membuat email yang diinginkan.

Penyelarasan Skala Besar untuk Chatbot (LAB)

LAB juga berperan penting dalam membantu IBM menyempurnakan model Granite-nya sendiri pada IBM Watson dengan tujuan aplikasi perusahaan. Large-scale Alignment for chatbots (LAB) adalah penawaran terbaru IBM di bidang ini. Ini adalah cara untuk membangun data sintetis untuk tugas yang Anda ingin chatbot Anda lakukan dan untuk memasukkan keterampilan dan pengetahuan baru ke dalam model dasar tanpa menghapus pembelajaran sebelumnya. Pelatihan LLM biasanya membutuhkan banyak waktu dan uang, tetapi dengan LAB, LLM dapat ditingkatkan secara signifikan dengan usaha dan biaya yang jauh lebih sedikit.

Taksonomi IBM membagi data instruksi menjadi tiga kategori utama, yaitu pengetahuan, keterampilan dasar, dan keterampilan komposisi yang dibangun di atas pengetahuan dan keterampilan dasar. Pengetahuan akuntansi, kemahiran matematika, dan kemampuan menulis dan bernalar secara koheren adalah semua informasi yang mungkin diperlukan dalam kasus ini. Model instruktur akan secara iteratif melakukan kontrol kualitas pada hasilnya saat menghasilkan instruksi untuk setiap kategori. Data yang dihasilkan oleh model instruktur juga dikenakan penilaian kontrol kualitas. Ini menghilangkan pertanyaan dan arahan yang tidak relevan dengan informasi yang tidak akurat dengan menjadi kritikus yang paling keras.

Instruksi yang disetujui kemudian dibagi menjadi tiga bagian: pengetahuan, keterampilan dasar, dan keterampilan komposisi. Hal ini memungkinkan LLM untuk memprosesnya dalam dua langkah. Sama seperti manusia mempelajari hal-hal baru dengan membangun apa yang sudah mereka ketahui, LLM dapat melakukan hal yang sama melalui jadwal pelatihan berjenjangnya.

Labradorite 13B (berdasarkan model Llama-2-13B Meta) dan Merlinite 7B (berdasarkan model Mistral 7B) dilatih menggunakan kumpulan data sintetis berisi 1,2 juta instruksi yang dibuat oleh IBM Research menggunakan pendekatan LAB. Model yang selaras mereka mengungguli chatbot canggih pada beberapa pengujian, termasuk yang mengukur pemahaman bahasa alami dan kelancaran percakapan. Chatbot yang dilatih pada sejumlah besar data sintetis, seperti chatbot Orca-2 Microsoft—dilatih pada lima belas juta instruksi yang dibuat oleh model GPT-4—tidak memiliki kinerja model Labradorite dan Merlinite IBM.

Hasil ini dapat dipahami dengan lebih baik karena dua karakteristik LAB. Berbagai tugas target yang jauh lebih luas dihasilkan oleh model guru, yang menghasilkan contoh sintetis dari setiap simpul daun taksonomi. Pendekatan alternatif bergantung pada pengambilan sampel acak, yang sangat membatasi keluasan data.