AI Teknologi Informasi

GPT 3.5T dari Startup India, Sarvam AI, mampu mengatasi bahasa Inggris, Hindi, dan Hinglish

Nama model AI Sarvam berasal dari Hathi, kata dalam bahasa Hindi yang berarti gajah. AI BUSINESS VIA GPT 3.5T

Sekilas Model bahasa besar dwibahasa baru yang dibangun di atas Llama 2 dari Meta mampu menangani bahasa Hindi lebih baik daripada model dari OpenAI. Model bahasa besar dapat mendukung berbagai bahasa, tetapi sebagian besar dilatih dengan konten berbahasa Inggris. Model baru muncul dengan harapan dapat melayani pengguna berbahasa Hindi.

OpenHathi-Hi-v0.1 adalah model bahasa besar dari Sarvam AI, sebuah startup India yang mengembangkan solusi AI generatif. Model baru mereka melampaui GPT 3.5 Turbo OpenAI dalam berbagai tugas bahasa Hindi sambil mempertahankan kinerja bahasa Inggrisnya.

OpenHathi-Hi-v0.1 dibangun di atas versi tujuh miliar parameter Llama 2, model sumber terbuka populer dari Meta. Tim di Sarvam memperluas tokenizer-nya menjadi 48K token – yang memungkinkan model untuk memasukkan rentang bahasa atau kosakata khusus yang lebih luas.

Model tersebut dilatih dalam bahasa Hindi, Inggris, dan Hinglish, campuran bahasa Hindi dan Inggris. Sarvam berpendapat bahwa meskipun model terbuka seperti Llama dan Mistral telah mendemokratisasi akses ke model bahasa besar, mereka memiliki dukungan bahasa Indik yang terbatas atau tidak ada sama sekali – bahasa yang digunakan oleh lebih dari 800 juta orang di negara seperti India, Pakistan, Sri Lanka, dan Bangladesh.

Startup India ini menilai beberapa model dengan meminta mereka untuk menerjemahkan kalimat sederhana dari bahasa Inggris ke bahasa Hindi. Model tersebut dapat mengeluarkan teks dalam Devanāgarī, skrip yang digunakan untuk bahasa Hindi, tetapi model tersebut memberikan respons yang salah. Misalnya, ketika memasukkan ‘harga bensin telah terus meningkat sejak beberapa tahun lalu,’ model tersebut salah menerjemahkan frasa menjadi ‘Ada masalah terlalu banyak nilai tempat kerja’ dari Mistral-7B.

Terkait: AI Kecil Revolusioner untuk Pengenalan Suara Berbasis Edge

Kredit: Sarvam AI

Menurut platform pembelajaran bahasa Babbel, Hindi adalah bahasa kelima yang paling banyak digunakan di dunia, dengan sekitar 344 juta penutur asli. Tim yang menciptakan OpenHathi ingin model tersebut “mendorong inovasi dalam AI bahasa India” dan berharap orang lain berinovasi di atasnya dengan membangun model yang lebih disesuaikan.

Melatih Model AI untuk Menangani Bahasa Hindi

Melatih model untuk bahasa Indik sedikit lebih sulit daripada bahasa Inggris.

Sarvam harus membuat tokenizer khusus untuk meningkatkan kemampuan model menangani bahasa Hindi, yang membuat tim melatih tokenizer sentence-piece pada korpus teks Hindi yang besar dan mengintegrasikannya dengan tokenizer yang ada dari model dasar, Llama 2. Ide tersebut adalah untuk mengurangi jumlah token yang dihasilkan untuk teks Hindi agar pelatihan dan inferensi menjadi lebih efisien.

Startup ini juga harus mengakomodasi Hindi Romanisasi – cara umum menulis bahasa Hindi dengan keyboard berbahasa Inggris.

Sarvam harus melatih model untuk bergantian kalimat dalam bahasa Hindi dan Inggris agar model dapat memprediksi teks asli dari terjemahannya.

Cara mengakses model AI Hindi

Terkait: Petugas Layanan Digital Utama Tech Mahindra tentang Meningkatkan AI di Perusahaan Untuk mengatasi kurangnya data pelatihan yang tersedia, Sarvam menerjemahkan konten berbahasa Inggris ke bahasa Hindi dan menggunakannya untuk pelatihan. Startup ini juga bekerja sama dengan I4Bharat, laboratorium riset di Indian Institute of Technology Madras, yang menyediakan sumber daya bahasa serta tolok ukur untuk membangun dan menguji model.