AI Umum

VLM-CaR: Kerangka Pembelajaran Mesin Baru yang Memberdayakan Pembelajaran Penguatan dengan Model Visi-Bahasa

Pendahuluan

Pembelajaran penguatan (RL) adalah bidang pembelajaran mesin yang memungkinkan agen belajar membuat keputusan optimal dalam lingkungan yang tidak pasti. RL telah berhasil diterapkan pada berbagai tugas, termasuk permainan, robotika, dan keuangan.

Salah satu tantangan utama dalam RL adalah merancang fungsi hadiah yang efektif. Fungsi hadiah menentukan perilaku agen dengan memberikan hadiah untuk tindakan yang diinginkan dan hukuman untuk tindakan yang tidak diinginkan. Merancang fungsi hadiah yang efektif seringkali merupakan proses manual dan memakan waktu yang lama.

VLM-CaR

VLM-CaR adalah kerangka kerja baru yang memungkinkan agen RL belajar dari input visual menggunakan model visi-bahasa (VLM). VLM adalah model pembelajaran mesin yang dapat memahami dan menghasilkan bahasa alami. VLM-CaR menggunakan VLM untuk menghasilkan fungsi hadiah yang efektif secara otomatis.

Cara Kerja VLM-CaR

VLM-CaR bekerja dalam tiga tahap:

  1. Menghasilkan program. Pada tahap ini, VLM diberi gambar awal dan gambar tujuan dari lingkungan. VLM kemudian menghasilkan deskripsi tugas dan subtugas yang diperlukan untuk mencapai tujuan.
  2. Memverifikasi program. Pada tahap ini, program yang dihasilkan oleh VLM diverifikasi untuk memastikan bahwa program tersebut benar.
  3. Pelatihan RL. Pada tahap ini, program yang diverifikasi digunakan sebagai fungsi hadiah untuk melatih agen RL.

Manfaat VLM-CaR

VLM-CaR memiliki beberapa manfaat, di antaranya:

  • Mengotomatiskan proses merancang fungsi hadiah. VLM-CaR memungkinkan agen RL belajar dari input visual tanpa perlu merancang fungsi hadiah secara manual.
  • Meningkatkan efisiensi pelatihan RL. VLM-CaR dapat membantu agen RL belajar lebih cepat dan dengan lebih sedikit data.
  • Meningkatkan kinerja agen RL. VLM-CaR dapat membantu agen RL mencapai kinerja yang lebih baik pada berbagai tugas.

Kesimpulan

VLM-CaR adalah kerangka kerja baru yang memungkinkan agen RL belajar dari input visual menggunakan model visi-bahasa. VLM-CaR dapat mengotomatiskan proses merancang fungsi hadiah, meningkatkan efisiensi pelatihan RL, dan meningkatkan kinerja agen RL.