AI Umum

Kerangka Kerja Kecerdasan Buatan Baru untuk Pembelajaran Imitasi Robotik

Pendahuluan

Manipulasi robotik merupakan tantangan signifikan dalam bidang otomatisasi dan kecerdasan buatan (AI), terutama untuk tugas yang membutuhkan ketangkasan tinggi. Metode pembelajaran imitasi tradisional, yang mengandalkan demonstrasi manusia untuk mengajarkan tugas kompleks kepada robot, dibatasi oleh kebutuhan akan data demonstrasi berkualitas tinggi yang ekstensif. Persyaratan ini sering kali membutuhkan upaya manusia yang besar, terutama untuk tugas manipulasi cekatan multi-jari.

Kerangka Kerja CyberDemo

Untuk mengatasi tantangan ini, diperkenalkan kerangka kerja baru, CyberDemo, yang memanfaatkan demonstrasi manusia yang disimulasikan untuk tugas manipulasi robot dunia nyata. Pendekatan ini tidak hanya mengurangi kebutuhan akan perangkat keras fisik, sehingga memungkinkan pengumpulan data jarak jauh dan paralel, tetapi juga secara signifikan meningkatkan kinerja tugas melalui teknik augmentasi data eksklusif simulator (Gambar 3). Dengan memanfaatkan teknik ini, CyberDemo dapat menghasilkan kumpulan data yang jauh lebih besar daripada yang dapat dikumpulkan secara layak di dunia nyata. Kemampuan ini mengatasi salah satu tantangan mendasar di bidang ini: transfer sim2real, di mana kebijakan yang dilatih dalam simulasi diadaptasi untuk aplikasi dunia nyata.

Metodologi CyberDemo dimulai dengan pengumpulan demonstrasi manusia melalui teleoperasi di lingkungan simulasi menggunakan perangkat berbiaya rendah. Data ini kemudian diperkaya melalui augmentasi ekstensif untuk menyertakan berbagai kondisi visual dan fisik yang tidak ada selama pengumpulan data awal. Proses ini dirancang untuk meningkatkan ketahanan kebijakan yang dilatih terhadap variasi di dunia nyata.

Kerangka kerja menggunakan strategi pembelajaran kurikulum untuk pelatihan kebijakan, dimulai dengan kumpulan data yang diperkaya dan secara bertahap memperkenalkan demonstrasi dunia nyata untuk menyempurnakan kebijakan. Pendekatan ini memastikan transisi sim2real yang mulus, mengatasi variasi dalam pencahayaan, geometri objek, dan pose awal tanpa memerlukan demonstrasi tambahan.

Hasil

Keefektifan CyberDemo ditekankan oleh kinerjanya (Gambar 4) dalam berbagai tugas manipulasi. Dibandingkan dengan metode tradisional, CyberDemo menunjukkan peningkatan yang luar biasa dalam tingkat keberhasilan tugas. Secara khusus, CyberDemo mencapai tingkat keberhasilan yang 35% lebih tinggi untuk tugas kuasi-statis seperti ambil dan letakkan dan 20% lebih tinggi untuk tugas non-kuasi-statis seperti memutar katup jika dibandingkan dengan kebijakan yang dilatih sebelumnya yang disempurnakan pada demonstrasi dunia nyata. Selain itu, dalam pengujian yang melibatkan objek yang tidak terlihat, kemampuan generalisasi CyberDemo sangat penting, dengan tingkat keberhasilan 42,5% dalam memutar objek baru, sebuah lompatan signifikan dari kinerja metode konvensional.

Metode ini dievaluasi terhadap beberapa dasar, termasuk model pra-pelatihan visi mutakhir seperti PVR, MVP, dan R3M, yang sebelumnya digunakan untuk tugas manipulasi robotik. PVR dibangun di atas MoCo-v2 dengan tulang punggung ResNet50, MVP menggunakan pembelajaran mandiri dari Autoencoder Bertopeng dengan tulang punggung Vision Transformer, dan R3M menggabungkan pembelajaran kontras waktu, penyelarasan video-bahasa, dan regularisasi L1 dengan tulang punggung ResNet50. Keberhasilan CyberDemo terhadap model-model mapan ini menyoroti efisiensi dan ketahanannya serta kemampuannya untuk mengungguli model yang telah disempurnakan pada kumpulan data demonstrasi dunia nyata.

Kesimpulan

Pendekatan inovatif CyberDemo, yang memanfaatkan data simulasi yang diperkaya, menantang kepercayaan yang berlaku bahwa demonstrasi dunia nyata sangat penting untuk memecahkan masalah dunia nyata. Bukti empiris yang disajikan melalui kinerja CyberDemo menunjukkan potensi data simulasi yang belum dimanfaatkan, yang ditingkatkan melalui augmentasi data, untuk melampaui data dunia nyata dalam hal nilai untuk tugas manipulasi robotik. Meskipun kebutuhan untuk merancang lingkungan simulasi untuk setiap tugas menghadirkan lapisan upaya tambahan, mengurangi intervensi manusia yang diperlukan untuk pengumpulan data dan menghindari proses desain hadiah yang kompleks menawarkan keuntungan yang substansial. CyberDemo merupakan langkah maju yang signifikan dalam bidang manipulasi robotik, menawarkan solusi yang skalabel dan efisien untuk tantangan abadi transfer sim2real dan generalisasi kebijakan.