AI Umum

Metode Pembelajaran Mesin Baru untuk Abstraksi Aksi Temporal Multitugas

Sejak awal, robotika telah membuat kemajuan yang signifikan, dengan robot yang banyak digunakan saat ini di berbagai industri, seperti pemantauan rumah dan elektronik, nanoteknologi, kedirgantaraan, dan banyak lainnya. Robot ini mampu memproses data kompleks berdimensi tinggi dan memutuskan tindakan terbaik yang harus diambil. Mereka melakukannya dengan membangun abstraksi, yaitu ringkasan padat dari apa yang mereka lihat dan tindakan apa yang dapat mereka ambil, yang membantu mereka menggeneralisasi di seluruh tugas. Para peneliti terutama berkonsentrasi pada pembelajaran abstraksi atau ringkasan ini dari data daripada membuatnya secara manual.

Dalam penelitian dari Microsoft ini, tim peneliti berfokus pada abstraksi aksi temporal, yaitu memecah kebijakan kompleks menjadi tugas tingkat rendah seperti mengambil benda, berjalan, dll. Mereka percaya bahwa teknik ini memiliki potensi besar untuk pembelajaran representasi aksi. Mereka telah memperkenalkan metode baru yang disebut Primitive Sequence Encoding (PRISE), yang membantu mengajarkan keterampilan multi-langkah kepada robot. Hasilnya menunjukkan bahwa PRISE memungkinkan robot belajar lebih cepat dan berkinerja lebih baik daripada jika dilatih pada semua kode aksi secara bersamaan.

PRISE terinspirasi oleh ide-ide dari NLP. Metode ini mengambil tindakan berkelanjutan robot dan mengubahnya menjadi satu set kode diskrit. Para peneliti melakukan pretrain modul kuantisasi vektor untuk tugas ini dan kemudian menerapkan teknik Byte Pair Encoding (BPE) (yang digunakan dalam NLP untuk mengompresi teks) untuk mengidentifikasi rutinitas kecil ini dalam kode aksi. Kloning Perilaku digunakan untuk menguji robot, di mana PRISE memanfaatkan rutinitas atau keterampilan kecil ini alih-alih set instruksi lengkap, sehingga prosesnya lebih cepat dan lebih efisien daripada metode lain.

Para peneliti juga menilai efektivitas token keterampilan PRISE. Mereka pertama kali melakukan pretrain menggunakan kumpulan data offline multitugas berskala besar dan kemudian mengevaluasinya pada dua skenario pembelajaran imitasi (IL) offline – mempelajari kebijakan generalis multitugas dan adaptasi few-shot ke tugas yang tidak terlihat.

Untuk tugas pertama, para peneliti mengevaluasi tingkat keberhasilan rata-rata di 90 tugas dalam kumpulan data LIBERO-90. Mereka mengamati bahwa penggunaan token keterampilan dalam PRISE menghasilkan peningkatan kinerja yang signifikan dibandingkan dengan algoritma lain yang ada. Para peneliti juga mengevaluasi kinerja IL 5-shot PRISE di lima tugas MetaWorld yang tidak terlihat. Mereka menemukan bahwa PRISE melampaui semua baseline lainnya dengan selisih yang besar, menyoroti keefektifannya dalam beradaptasi dengan tugas hilir yang tidak terlihat.

Kesimpulannya, makalah penelitian ini menyajikan PRISE, sebuah metode baru yang memungkinkan robot belajar lebih cepat dan berkinerja lebih baik daripada jika dilatih secara bersamaan pada semua kode aksi. Mereka memanfaatkan metodologi NLP yang disebut algoritma tokenisasi Byte Pair Encoding yang memungkinkan pembelajaran kebijakan multitugas yang efisien dan adaptasi few-shot ke tugas yang tidak terlihat. Eksperimen juga menunjukkan keunggulan metode ini dibandingkan algoritma lain, dan penelitian ini berpotensi untuk lebih meningkatkan kinerja robot di berbagai tugas.