AI Umum

Pemanfaatan Model Umpan Balik Bahasa dalam Pembelajaran Imitasi Lanjutan: Sebuah Inovasi dari Microsoft Research

Tantangan dalam Mengembangkan Agen Pembelajaran Imitasi

Dalam mengembangkan agen yang dapat mengikuti instruksi dalam lingkungan nyata, terdapat sejumlah tantangan yang perlu diatasi, termasuk efisiensi sampel dan generalisasi. Agen-agen ini harus belajar secara efektif dari beberapa demonstrasi sambil tetap mampu beroperasi dengan sukses di lingkungan baru dengan instruksi yang berbeda setelah pelatihan. Teknik-teknik seperti pembelajaran penguatan dan pembelajaran imitasi sering digunakan, tetapi seringkali membutuhkan banyak percobaan atau demonstrasi ahli yang mahal karena ketergantungannya pada metode coba-coba atau bimbingan ahli.

Peran Model Umpan Balik Bahasa (LFM)

Dalam pembelajaran imitasi yang didasarkan pada bahasa, agen menerima instruksi dan pengamatan parsial di lingkungan, lalu mengambil tindakan yang sesuai. Pembelajaran penguatan melibatkan penerimaan hadiah, sedangkan pembelajaran imitasi meniru tindakan ahli. Kloning perilaku mengumpulkan data ahli secara offline untuk melatih kebijakan, berbeda dengan pembelajaran imitasi online
, yang membantu dalam tugas jangka panjang di lingkungan nyata.

Penelitian terbaru menunjukkan bahwa model bahasa besar (LLM), ketika dilatih sebelumnya, menunjukkan pembelajaran yang efisien melalui prompting dan pembelajaran dalam konteks di berbagai tugas tekstual dan nyata, termasuk kontrol robot. Namun, metode yang ada untuk mengikuti instruksi dalam skenario nyata bergantung pada LLM online selama inferensi, yang tidak praktis dan berbiaya tinggi.

Penelitian Microsoft Research dan University of Waterloo

Para peneliti dari Microsoft Research dan University of Waterloo telah mengusulkan Model Umpan Balik Bahasa (LFM) untuk meningkatkan kebijakan dalam pembelajaran imitasi. LFM memanfaatkan LLM untuk memberikan umpan balik tentang perilaku agen di lingkungan nyata, membantu dalam mengidentifikasi tindakan yang diinginkan. Dengan menyaring umpan balik ini menjadi LFM yang ringkas, teknik ini memungkinkan peningkatan kebijakan yang efisien dan hemat biaya tanpa bergantung terus-menerus pada LLM. LFM dapat digeneralisasikan ke lingkungan baru dan menawarkan umpan balik yang dapat ditafsirkan untuk validasi data imitasi oleh manusia.

Metode yang Diusulkan

Metode yang diusulkan memperkenalkan LFM untuk meningkatkan pembelajaran kebijakan dalam pembelajaran imitasi. LFM memanfaatkan LLM untuk mengidentifikasi perilaku produktif dari kebijakan dasar, memfasilitasi pembelajaran imitasi berkelompok untuk peningkatan kebijakan. Dengan menyaring pengetahuan dunia dari LLM menjadi LFM yang ringkas, pendekatan ini mencapai peningkatan kebijakan yang efisien dan dapat digeneralisasikan tanpa memerlukan interaksi online berkelanjutan dengan LLM yang mahal selama penerapan.

Manfaat dan Keunggulan LFM

  • Mengidentifikasi perilaku produktif, meningkatkan kebijakan tanpa interaksi LLM yang berkelanjutan.
  • Mengungguli penggunaan LLM secara langsung, dapat digeneralisasikan ke lingkungan baru, dan memberikan umpan balik yang dapat ditafsirkan.
  • Menawarkan cara yang hemat biaya untuk peningkatan kebijakan dan mendorong kepercayaan pengguna.

Kesimpulan

Secara keseluruhan, LFM secara signifikan meningkatkan kinerja kebijakan, menunjukkan keefektifannya dalam mengikuti instruksi nyata. Para peneliti dari Microsoft Research dan University of Waterloo telah mengusulkan Model Umpan Balik Bahasa (LFM). LFM unggul dalam mengidentifikasi perilaku yang diinginkan untuk pembelajaran imitasi di berbagai benchmark. Mereka melampaui metode dasar dan pembelajaran imitasi ahli berbasis LLM tanpa penggunaan LLM yang berkelanjutan. LFM dapat digeneralisasikan dengan baik, menawarkan peningkatan adaptasi kebijakan yang signifikan di lingkungan baru. Selain itu, mereka memberikan umpan balik yang terperinci dan dapat ditafsirkan oleh manusia, sehingga mendorong kepercayaan pada data imitasi. Penelitian di masa mendatang dapat mengeksplorasi pemanfaatan LFM terperinci untuk pemodelan hadiah RL dan menciptakan kebijakan yang dapat dipercaya dengan verifikasi manusia./p>