AI Umum

Peningkatan Memori Jangka Panjang dengan Model Ruang Keadaan dalam Pembelajaran Penguatan Berbasis Model

Pendahuluan

Pembelajaran Penguatan (RL) telah menjadi populer dalam pembelajaran mesin (ML). Dalam RL, agen berinteraksi dengan lingkungannya untuk memaksimalkan imbalannya.

Model Ruang Keadaan dalam MBRL

Integrasi model dunia ke dalam RL telah menjadi paradigma yang kuat. Model dunia memungkinkan agen untuk mengamati, mensimulasikan, dan merencanakan dalam dinamika yang dipelajari. Ini memfasilitasi Pembelajaran Penguatan Berbasis Model (MBRL), di mana agen mempelajari model dunia untuk memprediksi hasil tindakannya dan membuat keputusan yang bijaksana.

Tantangan Ketergantungan Jangka Panjang

Salah satu tantangan utama dalam MBRL adalah menangani ketergantungan jangka panjang. Ini terjadi ketika agen perlu mengingat pengamatan yang jauh untuk membuat keputusan atau ketika ada kesenjangan waktu yang signifikan antara tindakan agen dan hasilnya.

Metode R2I

Untuk mengatasi tantangan ini, peneliti telah mengusulkan metode ‘Recall to Imagine’ (R2I) yang unik. R2I mengintegrasikan seperangkat model ruang keadaan (SSM) ke dalam model dunia agen MBRL. Integrasi ini bertujuan untuk meningkatkan kapasitas memori jangka panjang dan penugasan kredit agen.

Hasil Evaluasi

Evaluasi ekstensif pada berbagai tugas ilustrasi telah membuktikan keefektifan R2I:

  • R2I menetapkan tolok ukur baru untuk tugas RL yang menantang seperti memori dan penugasan kredit di lingkungan POPGym dan BSuite.
  • R2I menunjukkan kinerja manusia super dalam tugas Memory Maze, menunjukkan kemampuannya menangani tugas memori yang menantang.
  • R2I berkinerja baik pada tugas pembelajaran penguatan standar seperti Atari dan DeepMind Control (DMC), menunjukkan generalisasinya dan efektivitasnya dalam domain memori tertentu.

Efisiensi Komputasi

R2I juga menunjukkan konvergensi yang lebih cepat dibandingkan dengan DreamerV3, pendekatan MBRL tercanggih. Konvergensi yang cepat ini menjadikannya solusi yang layak untuk aplikasi dunia nyata di mana efisiensi waktu sangat penting.

Kontribusi Utama

Kontribusi utama R2I adalah:

  • Agen MBRL yang ditingkatkan dengan memori yang lebih baik berdasarkan DreamerV3.
  • Penggunaan S4 yang dimodifikasi untuk menangani ketergantungan temporal.
  • Kemampuan untuk mempertahankan generalitas DreamerV3 dan menawarkan komputasi hingga 9 kali lebih cepat dengan hyperparameter model dunia tetap di seluruh domain.
  • Kinerja yang unggul dibandingkan dengan pesaing di domain intensif memori seperti POPGym, BSuite, Memory Maze, dan lainnya.
  • Kinerja yang lebih baik dari manusia, terutama di Memory Maze, lingkungan 3D yang menantang yang menguji memori jangka panjang.
  • Evaluasi kinerja R2I pada benchmark RL seperti DMC dan Atari, menunjukkan kemampuan beradaptasinya tanpa menurunkan kinerja dalam berbagai tugas kontrol.
  • Tes ablasi untuk mengevaluasi dampak pilihan desain R2I, memberikan wawasan tentang efektivitas arsitektur dan komponen individualnya.