AI Umum

DiffTOP: Diferensiabel Trajectory Optimization untuk Deep Reinforcement Learning dan Imitation Learning

Penelitian terbaru menunjukkan bahwa penggambaran suatu kebijakan dapat memengaruhi kinerja pembelajaran secara signifikan. Representasi kebijakan seperti jaringan saraf umpan maju, model berbasis energi, dan difusi telah diselidiki dalam penelitian sebelumnya. Sebuah studi terbaru oleh para peneliti Carnegie Mellon University dan Peking University mengusulkan menghasilkan tindakan untuk pembelajaran penguatan dan imitasi yang mendalam menggunakan data sensorik berdimensi tinggi (gambar/titik awan) dan optimasi lintasan yang dapat dibedakan sebagai representasi kebijakan.

Optimasi lintasan, pendekatan kontrol yang populer dan berhasil, biasanya didefinisikan menggunakan fungsi biaya dan fungsi dinamika. Anggap saja sebagai kebijakan yang parameternya menentukan fungsi biaya dan fungsi dinamika, dalam hal ini diwakili oleh jaringan saraf. Setelah menerima status input (seperti gambar, titik awan, atau status sambungan robot) dan fungsi biaya dan dinamika yang dipelajari, kebijakan akan memecahkan masalah optimasi lintasan untuk menentukan tindakan yang akan diambil. Optimasi lintasan juga memungkinkan untuk dibedakan, yang membuka pintu untuk propagasi balik di dalam proses optimasi.

Masalah dengan status berdimensi rendah dalam robotika, pembelajaran imitasi, identifikasi sistem, dan kontrol optimal terbalik semuanya telah dibahas dalam pekerjaan sebelumnya menggunakan optimasi lintasan yang dapat dibedakan. Ini adalah demonstrasi pertama dari pendekatan hibrida yang menggabungkan algoritma RL berbasis model yang mendalam dengan optimasi lintasan yang dapat dibedakan. Tim mempelajari fungsi dinamika dan biaya untuk mengoptimalkan hadiah dengan menghitung kerugian gradien kebijakan pada tindakan yang dihasilkan, yang dimungkinkan dengan menggunakan optimasi lintasan yang dapat dibedakan untuk menghasilkan tindakan.

Model yang berkinerja lebih baik selama pelatihan (misalnya, dengan kesalahan kuadrat rata-rata yang lebih rendah) saat mempelajari model dinamika tidak selalu lebih baik dalam hal kontrol, dan ini adalah masalah “ketidaksesuaian tujuan” yang ingin dipecahkan oleh metode ini dalam algoritma RL berbasis model saat ini. Untuk mengatasi masalah ini, mereka mengembangkan DiffTOP, yang merupakan singkatan dari “Diferensiabel Trajectory Optimization”. Dengan mengoptimalkan lintasan, mereka memaksimalkan kinerja tugas dengan menyebarkan kembali kerugian gradien kebijakan, yang mengoptimalkan dinamika laten dan model hadiah.

Eksperimen yang komprehensif menunjukkan bahwa DiffTOP mengungguli metode canggih sebelumnya baik dalam RL berbasis model (15 tugas) dan pembelajaran imitasi (13 tugas) menggunakan pembandingan standar dengan observasi sensorik berdimensi tinggi. Tugas-tugas ini termasuk 5 tugas Robomimic menggunakan gambar sebagai input dan 9 tantangan Maniskill1 dan Maniskill2 menggunakan titik awan sebagai input. Tim juga membandingkan pendekatan mereka dengan kelas kebijakan umpan maju, Model Berbasis Energi (EBM), dan Difusi dan mengevaluasi DiffTOP untuk pembelajaran imitasi pada rangkaian tugas manipulasi robot umum menggunakan data sensorik berdimensi tinggi. Dibandingkan dengan pendekatan EBM yang digunakan dalam pekerjaan sebelumnya, yang dapat mengalami ketidakstabilan pelatihan karena memerlukan pengambilan sampel negatif berkualitas tinggi, prosedur pelatihan mereka menggunakan optimasi lintasan yang dapat dibedakan menghasilkan peningkatan kinerja. Metode yang diusulkan untuk mempelajari dan mengoptimalkan fungsi biaya selama pengujian memungkinkan kita untuk mengungguli alternatif berbasis difusi juga.