AI Umum

Meningkatkan Pengeditan Gambar Berbasis Instruksi melalui Pembelajaran Instruksi Ekspresif: Apple AI Research Merilis Pengeditan Gambar Berpanduan MLLM (MGIE)

Pengantar

Penggunaan alat desain canggih telah membawa transformasi revolusioner dalam bidang multimedia dan desain visual. Sebagai perkembangan penting di bidang modifikasi gambar, pengeditan gambar berbasis instruksi telah meningkatkan kontrol dan fleksibilitas proses. Perintah bahasa alami digunakan untuk mengubah foto, menghilangkan kebutuhan akan penjelasan rinci atau topeng khusus untuk mengarahkan proses pengeditan.

Namun, masalah umum terjadi ketika instruksi manusia terlalu singkat untuk dipahami dan dijalankan dengan benar oleh sistem saat ini. Model Bahasa Besar Multimodal (MLLM) hadir untuk mengatasi tantangan ini. MLLM menunjukkan keterampilan pemahaman lintas-modal yang mengesankan, dengan mudah menggabungkan data teks dan visual. Model-model ini sangat baik dalam menghasilkan respons yang terinformasi secara visual dan akurat secara linguistik.

MGIE: Pengeditan Gambar Berpanduan Model Bahasa Besar Multimodal

Dalam penelitian terbaru mereka, tim peneliti dari UC Santa Barbara dan Apple telah mengeksplorasi bagaimana MLLM dapat merevolusi pengeditan gambar berbasis instruksi, yang menghasilkan terciptanya Pengeditan Gambar Berpanduan Model Bahasa Besar Multimodal (MGIE). MGIE beroperasi dengan belajar mengekstrak instruksi ekspresif dari masukan manusia, memberikan arahan yang jelas untuk proses perubahan gambar berikutnya.

Melalui pelatihan menyeluruh, model ini menggabungkan pemahaman ini ke dalam proses pengeditan, menangkap kreativitas visual yang melekat dalam instruksi ini. Dengan mengintegrasikan MLLM, MGIE memahami dan menafsirkan instruksi singkat namun kaya konteks, mengatasi keterbatasan instruksi manusia yang terlalu singkat.

Evaluasi MGIE

Untuk menentukan efektivitas MGIE, tim telah melakukan analisis menyeluruh yang mencakup beberapa aspek pengeditan gambar. Ini melibatkan pengujian kinerjanya dalam pengeditan lokal, pengoptimalan foto global, dan penyesuaian gaya Photoshop. Hasil percobaan menyoroti betapa pentingnya instruksi ekspresif bagi modifikasi gambar berbasis instruksi.

MGIE menunjukkan peningkatan yang signifikan baik dalam pengukuran otomatis maupun evaluasi manusia dengan menggunakan MLLM. Peningkatan ini dicapai dengan tetap menjaga efisiensi inferensi yang kompetitif, memastikan bahwa model ini berguna untuk aplikasi praktis di dunia nyata selain efektif.

Kontribusi Utama MGIE

Tim telah merangkum kontribusi utama mereka sebagai berikut:

  • Memperkenalkan pendekatan unik yang disebut MGIE, yang mencakup pembelajaran model pengeditan dan Model Bahasa Besar Multimodal (MLLM) secara bersamaan.
  • Menambahkan instruksi ekspresif yang menyadari isyarat visual untuk memberikan arahan yang jelas selama proses pengeditan gambar.
  • Menyelidiki berbagai aspek pengeditan gambar, seperti pengeditan lokal, pengoptimalan foto global, dan modifikasi gaya Photoshop.
  • Mengevaluasi efektivitas MGIE melalui perbandingan kualitatif, termasuk beberapa fitur pengeditan.
  • Menilai dampak instruksi ekspresif yang menyadari isyarat visual pada pengeditan gambar melalui uji coba ekstensif.

Kesimpulan

Sebagai kesimpulan, pengeditan gambar berbasis instruksi yang dimungkinkan oleh MLLM merupakan kemajuan substansial dalam pencarian pengubahan gambar yang lebih mudah dipahami dan efektif. Sebagai contoh konkret, MGIE menyoroti bagaimana instruksi ekspresif dapat digunakan untuk meningkatkan kualitas keseluruhan dan pengalaman pengguna tugas pengeditan gambar. Hasil penelitian ini telah menekankan pentingnya instruksi ini dengan menunjukkan bahwa MGIE meningkatkan kinerja pengeditan dalam berbagai pekerjaan pengeditan.