AI Umum

Strategi Tokenisasi Terbaik: Greedy Inference dan SaGe Memimpin Model NLP

Metode Inferensi

Metode inferensi sangat penting untuk tokenisasi subkata dalam model NLP. Metode seperti BPE, WordPiece, dan UnigramLM menawarkan pemetaan yang berbeda, tetapi perbedaan kinerjanya harus dipahami dengan lebih baik. Implementasi seperti Huggingface Tokenizers sering kali perlu lebih jelas atau membatasi pilihan inferensi, sehingga mempersulit kompatibilitas dengan algoritma pembelajaran kosakata. Masih belum jelas apakah metode inferensi yang cocok diperlukan atau optimal untuk kosakata tokenizer.

Penelitian Sebelumnya

Penelitian sebelumnya berfokus pada pengembangan algoritma konstruksi kosakata seperti BPE, WordPiece, dan UnigramLM, mengeksplorasi ukuran kosakata yang optimal dan kosakata multibahasa. Beberapa penelitian meneliti efek kosakata pada kinerja hilir, teori informasi, dan plausibilitas kognitif. Pekerjaan terbatas pada metode inferensi menyelidiki efek acak pada penggabungan BPE dan algoritma pencarian yang canggih. Studi komprehensif harus dilakukan untuk membandingkan metode inferensi di berbagai kosakata dan ukuran.

Studi Eksperimental

Para peneliti dari Ben-Gurion University of the Negev Beer Sheva dan Massachusetts Institute of Technology telah melakukan eksperimen terkontrol yang mengevaluasi tujuh metode inferensi tokenizer di empat algoritma dan tiga ukuran kosakata. Eksperimen ini memperkenalkan rangkaian evaluasi intrinsik yang menggabungkan ukuran dari morfologi, kognisi, dan teori informasi untuk bahasa Inggris.

Mereka telah menunjukkan bahwa untuk tokenizer yang paling umum digunakan, inferensi greedy berkinerja sangat baik, sementara SaGe, tokenizer yang diinformasikan secara kontekstual, mengungguli yang lain dalam penyelarasan morfologis.

Inferensi Greedy

Dalam inferensi Greedy, mereka hanya mempertimbangkan dan menghasilkan satu token pada setiap langkah dan mendefinisikan tiga pendekatan greedy:

  • Metode “Longest prefix” menyerupai pendekatan pemilihan token terpanjang dari kosakata yang merupakan prefiks kata dan secara iteratif menyegmentasi teks yang tersisa.
  • “Longest suffix” menentukan token sufiks kata terpanjang dan melanjutkan segmentasi secara iteratif.
  • “Longest token” memilih token terpanjang yang terkandung dalam kata, menambahkannya ke segmentasi, dan melanjutkan segmentasi karakter yang tersisa.

Hasil

Evaluasi menyeluruh terhadap metode inferensi di kosakata BPE, UnigramLM, WordPiece, dan SaGe telah mengungkapkan variasi dalam metrik kinerja. Metode inferensi berbasis aturan penggabungan sering kali mengungguli strategi default, terutama terlihat dalam penyelarasan morfologis. Metode berbasis kemungkinan terkadang menetapkan nilai kemungkinan tinggi untuk token yang sering digunakan, yang memengaruhi kualitas segmentasi. SaGe menunjukkan penyelarasan yang unggul dengan morfologi. BPE dan WordPiece unggul dalam kompresi tetapi tertinggal dalam tolok ukur kognitif. Kosakata berbasis kemungkinan dan informasi menunjukkan tren yang konsisten dalam kategori masing-masing, yang menyoroti ketahanan tolok ukur.

Kesimpulan

Para peneliti dari Ben-Gurion University of the Negev Beer Sheva dan Massachusetts Institute of Technology tidak hanya memperkenalkan tolok ukur agregat untuk mengevaluasi tokenizer subkata secara intrinsik tetapi juga menekankan signifikansi praktis dari temuan mereka. Memilih metode inferensi yang sesuai untuk kosakata dan tugas tertentu sangat penting, dan efisiensi komputasinya dapat membantu pelatihan model bahasa dengan menyempurnakan skema tokenisasi dan memilih metode inferensi. Inferensi greedy muncul sebagai pilihan yang disukai, terutama untuk tugas yang didorong oleh morfologi, bahkan untuk tokenizer yang dilatih pada tujuan yang berbeda.