AI Umum

Model Dasar Agen Interaktif: Pelatihan Agen AI di Berbagai Domain

Pengantar

Pengembangan AI beralih dari model statis yang berpusat pada tugas ke sistem berbasis agen yang dinamis dan adaptif, cocok untuk berbagai aplikasi. Sistem AI bertujuan untuk mengumpulkan data sensorik dan berinteraksi secara efektif dengan lingkungan, sebuah tujuan penelitian jangka panjang.

Model Dasar Umum

Mengembangkan AI generalis menawarkan keuntungan, termasuk melatih satu model saraf di berbagai tugas dan jenis data. Pendekatan ini sangat terukur melalui data, sumber daya komputasi, dan parameter model.

Tantangan

Namun, tantangan tetap ada, karena model dasar yang besar sering kali menghasilkan halusinasi dan menyimpulkan informasi yang salah karena landasan yang tidak memadai dalam lingkungan pelatihan. Pendekatan sistem multimodal saat ini, yang mengandalkan model pra-latih beku untuk setiap modalitas, dapat melanggengkan kesalahan tanpa pra-pelatihan lintas modal.

Model Dasar Agen Interaktif

Para peneliti dari Stanford University, Microsoft Research, Redmond, dan University of California, Los Angeles, telah mengusulkan Model Dasar Agen Interaktif, yang memperkenalkan kerangka kerja pra-pelatihan terpadu untuk memproses teks, data visual, dan tindakan, memperlakukan masing-masing sebagai token terpisah.

Arsitektur

Model ini menginisialisasi arsitekturnya dengan CLIP ViT-B16 yang telah dilatih sebelumnya untuk pengkodean visual dan OPT-125M untuk pemodelan aksi dan bahasa. Ini menggabungkan berbagi informasi lintas modal melalui transformasi lapisan linier.

Evaluasi

Evaluasi di seluruh tugas robotika, permainan, dan perawatan kesehatan menunjukkan hasil yang menjanjikan. Meskipun dikalahkan dalam tugas tertentu oleh model lain karena lebih sedikit data untuk pra-pelatihan, metode ini menunjukkan kinerja yang kompetitif, terutama dalam robotika, di mana ia secara signifikan melampaui model komparatif.

Kesimpulan

Para peneliti mengusulkan Model Dasar Agen Interaktif, yang mahir dalam memproses input teks, tindakan, dan visual serta menunjukkan efektivitas di berbagai domain. Pra-pelatihan pada campuran data robotika dan permainan memungkinkan model untuk memodelkan tindakan secara mahir, bahkan menunjukkan transfer positif ke tugas perawatan kesehatan selama fine-tuning.