AI Umum

Premier-TACO: Representasi Pra-Pelatihan untuk Pembelajaran Kebijakan Few-Shot

Pendahuluan

Pembelajaran keputusan sekuensial (SDM) adalah bidang penting dalam pembelajaran mesin yang berfokus pada pembuatan keputusan dalam lingkungan yang berubah-ubah. SDM memiliki berbagai aplikasi, mulai dari robotika hingga perawatan kesehatan.

Model dasar pra-pelatihan telah menunjukkan hasil yang menjanjikan dalam tugas pemrosesan bahasa alami. Namun, SDM menghadirkan tantangan unik yang tidak ditemukan dalam tugas pemrosesan bahasa alami.

Premier-TACO

Premier-TACO adalah pendekatan baru untuk pra-pelatihan representasi untuk SDM. Premier-TACO menggunakan tujuan pra-pelatihan kontrastif temporal berbasis dinamika tanpa hadiah. Hal ini memungkinkan model untuk mempelajari representasi yang dapat digeneralisasikan ke berbagai tugas hilir.

Hasil Eksperimen

Premier-TACO menunjukkan hasil yang kuat pada berbagai tolok ukur SDM. Pada Deepmind Control Suite, Premier-TACO mencapai peningkatan kinerja relatif sebesar 101%. Pada MetaWorld, Premier-TACO mencapai peningkatan kinerja sebesar 74%, bahkan menunjukkan ketahanan terhadap data berkualitas rendah.

Kesimpulan

Premier-TACO adalah pendekatan yang menjanjikan untuk pra-pelatihan representasi untuk SDM. Premier-TACO menunjukkan hasil yang kuat pada berbagai tolok ukur SDM dan memiliki potensi untuk berbagai aplikasi di bidang SDM.