AI Umum

Model Dunia Difusi: Mengatasi Kesenjangan antara Pembelajaran Penguatan Berbasis Model dan Bebas Model

Pendahuluan

Pembelajaran penguatan (RL) mencakup berbagai algoritme yang umumnya dibagi menjadi dua kelompok utama: berbasis model (MB) dan bebas model (MF). Metode MB bergantung pada model prediktif umpan balik lingkungan, yang disebut model dunia, yang mensimulasikan dinamika dunia nyata. Model-model ini memfasilitasi derivasi kebijakan melalui eksplorasi tindakan atau optimalisasi kebijakan. Terlepas dari potensinya, metode MB sering kali berjuang dengan ketidakakuratan pemodelan, yang berpotensi menyebabkan kinerja suboptimal dibandingkan dengan teknik MF.

Model Dunia Difusi

Tantangan signifikan dalam MB RL terletak pada meminimalkan ketidakakuratan pemodelan dunia. Model dunia tradisional sering kali mengalami keterbatasan dalam dinamika satu langkahnya, memprediksi keadaan dan hadiah berikutnya semata-mata berdasarkan keadaan dan tindakan saat ini. Para peneliti mengusulkan pendekatan baru yang disebut Model Dunia Difusi (DWM) untuk mengatasi keterbatasan ini.

Berbeda dengan model konvensional, DWM adalah model probabilistik difusi yang dirancang khusus untuk memprediksi hasil jangka panjang. Dengan secara bersamaan menunjukkan keadaan dan hadiah masa depan multi-langkah tanpa kueri rekursif, DWM menghilangkan sumber akumulasi kesalahan. DWM dilatih menggunakan dataset yang tersedia, dan kebijakan selanjutnya dilatih menggunakan data sintetis yang dihasilkan oleh DWM melalui pendekatan aktor-kritikus.

Untuk lebih meningkatkan kinerja, para peneliti memperluas nilai model difusi (ε-MVE) untuk mensimulasikan pengembalian berdasarkan lintasan masa depan yang dihasilkan oleh DWM. Metode ini secara efektif menggunakan pemodelan generatif untuk memfasilitasi Q-learning offline dengan data sintetis.

Evaluasi Empiris

Efektivitas dari kerangka kerja yang diusulkan ditunjukkan melalui evaluasi empiris, khususnya dalam tugas penggerak dari tolok ukur D4RL. Membandingkan model dunia berbasis difusi dengan model satu langkah tradisional mengungkapkan peningkatan kinerja yang signifikan.

Model dunia difusi mencapai peningkatan 44% yang luar biasa dibandingkan model satu langkah di seluruh tugas dalam ruang aksi dan pengamatan berkelanjutan. Selain itu, kemampuan kerangka kerja untuk menjembatani kesenjangan antara algoritme MB dan MF ditekankan, dengan metode yang mencapai kinerja mutakhir dalam RL offline, menyoroti potensinya untuk memajukan bidang pembelajaran penguatan.

Implikasi

Kemajuan terbaru dalam metodologi RL offline terutama difokuskan pada algoritme MF, dengan sedikit perhatian diberikan untuk mendamaikan perbedaan antara pendekatan MB dan MF. Namun, kerangka kerja mereka mengatasi kesenjangan ini dengan menggunakan kekuatan paradigma MB dan MF.

Dengan mengintegrasikan Model Dunia Difusi ke dalam kerangka kerja RL offline, seseorang dapat mencapai kinerja mutakhir, mengatasi keterbatasan model dunia satu langkah tradisional. Ini menggarisbawahi pentingnya teknik pemodelan urutan dalam masalah pengambilan keputusan dan potensi pendekatan hibrida yang menggabungkan keuntungan dari metode MB dan MF.