AI Umum

Efisiensi Sampel yang Maju dalam Pembelajaran Penguatan di Berbagai Domain dengan Kerangka Pembelajaran Mesin yang Disebut ‘EfficientZero V2’

Pengantar

Pembelajaran Penguatan (RL) telah menjadi landasan untuk memungkinkan mesin menangani tugas-tugas mulai dari permainan strategi hingga mengemudi otonom. Dalam bidang yang luas ini, tantangan dalam mengembangkan algoritme yang belajar secara efektif dan efisien dari interaksi terbatas dengan lingkungan mereka tetap menjadi yang utama.

Tantangan Efisiensi Sampel

Tantangan yang terus-menerus dalam RL adalah mencapai tingkat efisiensi sampel yang tinggi, terutama ketika data terbatas. Efisiensi sampel mengacu pada kemampuan algoritme untuk mempelajari perilaku yang efektif dari jumlah interaksi minimal dengan lingkungan. Ini sangat penting dalam aplikasi dunia nyata di mana pengumpulan data memakan waktu, mahal, atau berpotensi berbahaya.

Algoritme EfficientZero V2 (EZ-V2)

Peneliti dari Universitas Tsinghua, Institut Qi Zhi Shanghai, dan Laboratorium Kecerdasan Buatan Shanghai telah memperkenalkan EfficientZero V2 (EZ-V2), sebuah kerangka kerja yang membedakan dirinya dengan unggul dalam tugas kontrol diskrit dan kontinu di berbagai domain, sebuah prestasi yang luput dari algoritme sebelumnya. Desainnya menggabungkan Pencarian Pohon Monte Carlo (MCTS) dan perencanaan berbasis model, memungkinkannya bekerja dengan baik di lingkungan dengan input visual dan berdimensi rendah. Pendekatan ini memungkinkan kerangka kerja untuk menguasai tugas-tugas yang membutuhkan kontrol dan pengambilan keputusan yang bernuansa berdasarkan isyarat visual, yang umum dalam aplikasi dunia nyata.

Arsitektur EZ-V2

EZ-V2 menggunakan kombinasi fungsi representasi, fungsi dinamis, fungsi kebijakan, dan fungsi nilai, yang semuanya direpresentasikan oleh jaringan saraf yang canggih. Komponen-komponen ini memfasilitasi pembelajaran model prediktif lingkungan, memungkinkan perencanaan tindakan yang efisien dan peningkatan kebijakan. Yang perlu diperhatikan secara khusus adalah penggunaan pencarian Gumbel untuk perencanaan berbasis pencarian pohon, yang disesuaikan untuk ruang tindakan diskrit dan kontinu. Metode ini memastikan peningkatan kebijakan sekaligus menyeimbangkan eksplorasi dan eksploitasi secara efisien.

Selain itu, EZ-V2 memperkenalkan metode estimasi nilai berbasis pencarian (SVE) yang baru, yang memanfaatkan lintasan imajiner untuk prediksi nilai yang lebih akurat, terutama dalam menangani data di luar kebijakan. Pendekatan komprehensif ini memungkinkan EZ-V2 mencapai tolok ukur kinerja yang luar biasa, secara signifikan meningkatkan efisiensi sampel algoritme RL.

Hasil Kinerja

Dari sudut pandang kinerja, makalah penelitian merinci hasil yang mengesankan. EZ-V2 menunjukkan kemajuan dibandingkan algoritme umum yang berlaku, DreamerV3, mencapai hasil yang unggul dalam 50 dari 66 tugas yang dievaluasi di berbagai tolok ukur, seperti Atari 100k. Ini menandai tonggak penting dalam kemampuan RL untuk menangani tugas-tugas kompleks dengan data terbatas. Secara khusus, dalam fungsi yang dikelompokkan di bawah tolok ukur Kontrol Proprio dan Kontrol Visi, kerangka kerja menunjukkan kemampuan beradaptasi dan efisiensinya, melampaui skor algoritme canggih sebelumnya.

Kesimpulan

Sebagai kesimpulan, EZ-V2 menyajikan lompatan signifikan dalam pencarian algoritme RL yang lebih efisien sampel. Dengan menavigasi tantangan hadiah yang jarang dan kompleksitas kontrol kontinu dengan cekatan, mereka telah membuka jalan baru untuk menerapkan RL dalam pengaturan dunia nyata. Implikasi dari penelitian ini sangat besar, menawarkan potensi terobosan di berbagai bidang di mana efisiensi data dan fleksibilitas algoritmik sangat penting.