AI Teknologi Informasi

Ilmuwan Meta: Bagaimana Model Bahasa Besar Bekerja, AI Summit NY 2023

Kanika Narang dari Meta Mengungkap Alur Kerja Model Bahasa Besar.

AI Generatif adalah istilah yang banyak digunakan tahun ini, namun apa bedanya dengan AI lainnya? Kanika Narang, ilmuwan penelitian AI senior di Meta, menjelaskan teknologi tersebut dalam sesi di AI Summit New York 2023.

Berbeda dengan bentuk AI lainnya – yang biasanya memiliki aturan yang telah ditentukan, menggunakan data terstruktur dan ditujukan untuk tugas tertentu – AI Generatif memanfaatkan jaringan saraf untuk secara otomatis menciptakan konten baru dan asli tanpa diprogram secara eksplisit untuk melakukannya.

Seperti yang diketahui banyak pengguna, model AI Generatif “sangat bagus saat ini sehingga mereka dapat melakukan berbagai tugas,” kata Narang, seperti menulis puisi atau menghasilkan gambar realistis hewan – di Mars.

Tulang punggung model ini, terutama untuk teks, adalah model bahasa besar. Mereka besar karena dilatih dengan jumlah data yang sangat besar. “Bayangkan segala sesuatu yang ada di web – semua buku yang telah dicetak,” katanya. “Manusia akan membutuhkan waktu 20.000 tahun untuk membaca semua pengetahuan yang terkapsul dalam model-model ini.”

Menggunakan dataset besar untuk melatih LLM ini memungkinkan mereka untuk melakukan banyak tugas seperti merangkum, menerjemahkan, atau menjawab pertanyaan.

Proses pelatihan

Di balik layar, proses pelatihan bekerja seperti ini: Model melihat data pelatihan, melihat sampel kalimat lalu akan “membagi mereka ke dalam kata-kata,” kata Narang. “Kata-kata ini diwakili dalam bentuk yang dapat merangkum makna semantik dari kata-kata tersebut.”

“Representasi ini bersama dengan posisi mereka dalam kalimat – diumpankan ke model, yang dikenal sebagai transformator,” lanjutnya. “Apa yang dilakukan model transformator ini adalah mereka mencoba memprediksi kemungkinan. Mereka memahami kemungkinan kata berikutnya berdasarkan konteks masukan.”

“Bahkan dengan teknik sederhana, karena mereka diberi data yang begitu banyak dan mereka dapat melihat sejarah yang lebih panjang … (mereka bisa) menentukan kata apa yang harus datang selanjutnya” dalam sebuah kalimat, katanya.

Dia mengatakan banyak perusahaan telah menciptakan LLM, yang paling terkenal adalah OpenAI dengan seri GPT-nya. Meta telah meluncurkan Llama 2, yang dilatih pada 1 triliun token dengan ukuran 7 miliar, 13 miliar, atau 30 miliar parameter.

Cara Memilih LLM

Untuk memilih model terbaik untuk perusahaan Anda, Narang mengatakan, pertimbangkan faktor-faktor berikut:

Performa: Pastikan LLM berkinerja baik untuk kasus penggunaan Anda

Latensi: Model yang lebih besar umumnya berkinerja lebih baik. Tapi tergantung pada sumber daya Anda, mungkin model yang lebih kecil dapat berkinerja sama baiknya untuk kasus penggunaan Anda.

Biaya: Model yang lebih besar datang dengan biaya yang lebih tinggi, karena memerlukan lebih banyak waktu dan lebih banyak perhitungan untuk menghasilkan model tersebut.

Keamanan: Seberapa aman generasi model? Jika kasus penggunaan Anda untuk audiens yang lebih muda, Anda ingin memastikan outputnya aman untuk mereka.

Keandalan dan interpretabilitas

Ambil contoh perusahaan farmasi yang mengembangkan obat untuk COVID-19 dan sekarang ingin memasarkan obatnya. LLM diberi tugas untuk membuat kampanye pemasaran untuk TV, media sosial, dan lokasi fisik.

Untuk memulai, tulis petunjuk ke LLM yang memiliki konteks yang relevan: “Bayangkan Anda bekerja di sebuah perusahaan pemasaran,” kata Narang untuk dimasukkan dalam petunjuk. Mengapa? “Strategi ini membantu model mengarahkan generasinya. Jenis petunjuk ini disebut zero shot karena tidak memiliki konteks lain.”

Namun, bahkan dengan petunjuk sederhana, LLM