AI Umum

UFO: Agen Berfokus UI Inovatif untuk Memenuhi Permintaan Pengguna yang Disesuaikan dengan Aplikasi pada Windows OS, Memanfaatkan Kemampuan GPT-Vision

Microsoft baru-baru ini merilis UFO, agen yang berfokus pada UI untuk interaksi khusus Windows OS. UFO mengatasi tantangan yang dihadapi dalam berinteraksi dengan antarmuka pengguna grafis (GUI) aplikasi pada sistem operasi (OS) Windows melalui perintah bahasa alami.

Tantangan dan Tujuan

Model bahasa besar (LLM) telah menunjukkan hasil yang sukses dalam memahami dan menjalankan perintah tekstual, tetapi LLM masih belum mampu menavigasi dan beroperasi dalam UI aplikasi Windows. Saat ini, model yang ada sebagian besar difokuskan pada ponsel cerdas atau aplikasi web, dan persyaratan agen UI yang dirancang khusus untuk lingkungan OS Windows masih belum tersedia.

Untuk memenuhi persyaratan tersebut, peneliti Microsoft mengusulkan UFO, agen yang berfokus pada UI yang dirancang untuk interaksi yang lancar dengan aplikasi Windows.

Metodologi

UFO menyesuaikan kerangka kerja agen ganda yang terdiri dari Agen Pemilihan Aplikasi (AppAgent) dan Agen Pemilihan Tindakan (ActAgent). Mereka memanfaatkan GPT-Vision untuk menganalisis tangkapan layar GUI dan informasi kontrol, yang memungkinkan agen memahami pemilihan aplikasi dan menjalankan tindakan yang diperlukan. UFO juga menggabungkan fitur-fitur seperti interaksi kontrol, peralihan aplikasi, kustomisasi tindakan, dan perlindungan untuk meningkatkan fungsionalitas dan pengalaman penggunanya.

Proses Kerja UFO

UFO bekerja dengan terlebih dahulu menganalisis permintaan pengguna dan lingkungan desktop saat ini, yang mencakup tangkapan layar dan aplikasi yang tersedia. Berdasarkan analisis ini, AppAgent memilih aplikasi yang sesuai dan mengembangkan strategi penyelesaian tugas global. Sementara ActAgent kemudian melakukan tindakan dalam aplikasi yang dipilih, secara berulang memilih kontrol dan melakukan tindakan hingga permintaan pengguna terpenuhi.

Fitur Utama UFO

  • Modul interaksi kontrol UFO memudahkan penerjemahan tindakan yang dipilih ke dalam operasi yang dapat dieksekusi, memungkinkan eksekusi otomatis tanpa perlu campur tangan manusia.
  • Kerangka kerja ini sangat dapat diperluas dan memungkinkan pengguna untuk membuat tindakan dan kontrol khusus untuk tugas dan aplikasi tertentu.

Evaluasi

Model yang diusulkan dievaluasi pada berbagai permintaan pengguna untuk menganalisis kinerjanya; model menunjukkan hasil yang berhasil pada hampir setiap tugas di aplikasi Windows, menyoroti keserbagunaannya dan potensinya untuk meningkatkan produktivitas pengguna.

Kesimpulan

Model yang diusulkan secara efisien berinteraksi dengan aplikasi Windows melalui perintah bahasa alami. Dengan memanfaatkan GPT-Vision dan kerangka kerja agen ganda, UFO menunjukkan efektivitas yang unggul dalam menavigasi dan beroperasi dalam aplikasi Windows untuk memenuhi permintaan pengguna.