AI Umum

Studi Pembelajaran Mesin Ini Menguji Kemampuan Generalisasi Panjang Transformer Menggunakan Tugas Penjumlahan Dua Bilangan Bulat

Model Berbasis Transformer telah mengubah bidang Pemrosesan Bahasa Alami (NLP) dan Pembangkitan Bahasa Alami (NLG), menunjukkan kinerja luar biasa dalam berbagai aplikasi. Contoh terbaiknya adalah model Gemini yang baru-baru ini diperkenalkan oleh Google dan model GPT oleh OpenAI. Beberapa penelitian menunjukkan bahwa model ini bekerja dengan baik dalam penalaran matematika, sintesis kode, dan tugas pembuktian teorema, tetapi mereka berjuang dengan generalisasi panjang, yang merupakan kapasitas untuk menerapkan pengetahuan mereka ke urutan yang lebih panjang daripada yang ditemui selama pelatihan. Keterbatasan ini menimbulkan pertanyaan penting tentang apakah Transformer benar-benar memahami algoritma dasar suatu tugas atau apakah mereka bergantung pada perbaikan cepat dan memori tingkat permukaan yang tidak berfungsi untuk tugas yang lebih besar dan lebih rumit.

Para peneliti telah mencoba menemukan apakah Transformer memiliki cacat desain bawaan yang mencegah generalisasi panjang yang berhasil. Untuk mengatasinya, tim peneliti dari Google DeepMind telah berfokus pada analisis metodis terhadap kemampuan generalisasi panjang Transformer, dengan perhatian khusus pada masalah penjumlahan desimal N-digit. Terlepas dari kesederhanaan relatif masalah penjumlahan dibandingkan dengan bahasa alami, penelitian ini memperlakukannya sebagai pembelajaran bahasa sintetis untuk mendapatkan wawasan tentang kapasitas Transformer untuk menginternalisasi proses dasar.

Tim telah mengeksplorasi kemampuan generalisasi panjang model Transformer, yaitu dengan menggunakan penjumlahan bilangan bulat sebagai lensa. Hasilnya mengungkapkan saling ketergantungan yang penting: kemampuan Transformer untuk memproses urutan yang lebih panjang tidak hanya bergantung pada arsitektur dan ukurannya, tetapi juga sangat bergantung pada jenis data yang digunakannya dan pengkodean posisi yang digunakan. Tim telah berbagi bahwa teknik pengkodean posisi, yang memberi model rasa urutan urutan, dan format data, yang menggambarkan bagaimana informasi diberikan ke model, merupakan komponen penting dalam menentukan apakah model dapat menggeneralisasi atau tidak.

Melalui eksperimen yang melibatkan berbagai kombinasi pengkodean posisi dan format data, tim telah menemukan konfigurasi yang memungkinkan Transformer biasa untuk mengekstrapolasi ke urutan 2,5 kali lebih panjang daripada yang ditemui selama pelatihan, dengan demikian secara signifikan melebihi batas pelatihan mereka. Hal ini menunjukkan bahwa Transformer mampu menangani urutan yang lebih panjang dengan sukses ketika diberi pelatihan dan keadaan yang benar. Berbeda dengan harapan model untuk tampil secara konsisten pada data yang mirip dengan set pelatihan mereka dalam generalisasi in-distribution, generalisasi panjang adalah pencapaian yang lebih rumit, yang menekankan interaksi kompleks antara dinamika pelatihan, penyajian data, dan desain model untuk mencapai kemampuan ekstrapolasi yang dapat diandalkan.

Tim telah merangkum kontribusi utama mereka sebagai berikut:

  • Telah ditemukan bahwa pemilihan strategis pengkodean posisi dan format data sangat penting untuk mencapai generalisasi panjang yang berhasil dalam model bahasa, terutama dalam tugas-tugas seperti penjumlahan bilangan bulat. Kemampuan model-model ini telah diperluas dengan mengoptimalkan aspek-aspek ini, yang memungkinkan mereka untuk menangani urutan hingga 2,5 kali lebih lama dari yang mereka latih.
  • Beberapa pendekatan pemformatan dan augmentasi data telah dipelajari, dan telah ditemukan bahwa efektivitas pendekatan ini dalam meningkatkan generalisasi panjang sangat bergantung pada jenis pengkodean posisi yang diterapkan. Ini menekankan pentingnya menggunakan strategi terkoordinasi saat memilih pengkodean posisi dan format data untuk mendapatkan hasil terbaik.
  • Telah ditemukan bahwa model mencapai generalisasi yang luar biasa, seperti mengekstrapolasi ke panjang yang jauh melampaui ruang lingkup pelatihan mereka; namun, ada kerapuhan yang nyata dalam keterampilan ini. Kinerja model sangat bervariasi antara iterasi pelatihan karena faktor-faktor seperti pengacakan inisialisasi bobot dan urutan pemberian data pelatihan.