AI Umum

L3GO: Agen Bahasa dengan Chain-of-3D-Thoughts untuk Presisi Pembuatan Objek

Pendahuluan

Aplikasi AI yang menerjemahkan instruksi tekstual menjadi gambar 2D atau model 3D telah memperluas kemungkinan kreatif, namun tantangan tetap ada dalam memperoleh hasil yang presisi. Alat yang ada sering kali menghasilkan hasil yang tidak terduga atau “halusinasi”, yang kurang sesuai dengan perintah masukan. Model Stable Diffusion menghadapi masalah dalam menggabungkan beberapa konsep atau membedakan atribut yang berbeda. Meskipun upaya telah meningkatkan keterikatan objek-atribut, objek yang hilang, dll., pembuatan objek yang membutuhkan pemahaman spasial 3D yang presisi tetap menjadi tantangan. Bahkan model difusi canggih seperti DALLE 3 kesulitan dengan tugas seperti membuat kursi dengan lima kaki seperti yang ditunjukkan pada Gambar 1.

L3GO: Agen Bahasa untuk Pembuatan Objek 3D yang Presisi

Mengatasi tantangan ini, L3GO yang diusulkan memanfaatkan kemampuan penalaran berbasis teks yang canggih dari Agen Model Bahasa (LLM) untuk meningkatkan pemahaman spasial 3D dalam pembuatan objek. L3GO memperkenalkan agen inferensi yang secara iteratif mencari umpan balik dari LLM, mengintegrasikan koreksi untuk meningkatkan presisi dalam merender mesh 3D, kemudian menghasilkan gambar 2D.

Eksperimen yang dilakukan dalam Blender, perangkat lunak pemodelan 3D yang diakui secara luas, melibatkan pembuatan lingkungan khusus bernama SimpleBlenv. Lingkungan ini secara sistematis mengevaluasi kinerja pembuatan mesh 3D-ke-teks dari agen LLM. Khususnya, bahkan LLM yang dilatih teks seperti GPT-4 menunjukkan kemampuan penalaran spasial yang terpuji, seperti yang diilustrasikan pada Gambar 2, yang menggambarkan kemahiran mereka dalam membuat objek 3D sederhana.

Proses Pembuatan Objek L3GO

L3GO menjembatani kesenjangan dalam pembuatan objek dengan mengadopsi pendekatan terstruktur, bagian demi bagian. Prosesnya meliputi:

  • Mengidentifikasi spesifikasi bagian yang relevan
  • Mengkritik mereka
  • Menentukan spesifikasi spasial dan penempatan
  • Menjalankan tindakan
  • Mengkritik penempatan dan penyelesaian spasial

Loop umpan balik iteratif ini menggabungkan koreksi dari SimpleBlenv dan menggunakan spesifikasi dan kritik yang dihasilkan LLM. Menggabungkan ketidakakuratan spasial adalah tantangan utama dalam menghasilkan seluruh objek 3D sekaligus. L3GO mengatasi hal ini dengan menguraikan proses pembuatan menjadi bagian-bagian yang berbeda, memungkinkan pengumpulan umpan balik dan proses koreksi yang iteratif.

Komponen L3GO

Enam komponen L3GO, masing-masing didukung oleh model bahasa, meliputi:

  • Generator Spesifikasi Bagian
  • Kritikus Spesifikasi Bagian
  • Generator Spesifikasi Spasial
  • Kalkulator Koordinat
  • Jalankan Tindakan
  • Kritikus Spasial

Komponen-komponen ini bekerja secara kohesif untuk memastikan pembuatan mesh 3D yang presisi dari instruksi teks.

Evaluasi

Evaluasi manusia (ditunjukkan pada Gambar 5,6 dan 7) yang membandingkan pembuatan mesh berbasis LLM menggunakan 13 kategori objek populer dari ShapeNet menunjukkan keunggulan L3GO dibandingkan GPT-4 dasar, ReAct-B, dan Reflexion-B. Pengenalan Objek yang Mungkin Tidak Biasa (UFO) lebih lanjut menunjukkan kehebatan L3GO dalam menciptakan objek dengan karakteristik yang tidak biasa namun layak.

Kesimpulan

L3GO secara signifikan memajukan jangkauan aplikasi model bahasa, khususnya dalam menghasilkan objek 3D dengan atribut tertentu. Integrasi agen bahasa dalam alur kerja model difusi, seperti yang ditunjukkan oleh L3GO, menjanjikan aplikasi masa depan dalam AI generatif.