AI Umum

BootPIG: Arsitektur Baru untuk Personalisasi Generasi Gambar dengan Gambar Referensi

Pendahuluan

Generasi gambar yang dipersonalisasi adalah proses menghasilkan gambar objek pribadi tertentu dalam berbagai konteks yang ditentukan pengguna. Misalnya, seseorang mungkin ingin memvisualisasikan berbagai cara anjing peliharaan mereka akan terlihat dalam berbagai skenario. Selain pengalaman pribadi, metode ini juga memiliki kasus penggunaan dalam penceritaan yang dipersonalisasi, desain interaktif, dll. Meskipun model generasi teks-ke-gambar saat ini telah menunjukkan kinerja yang luar biasa, mereka gagal mempersonalisasi pembuatan gambar sesuai dengan subjek tertentu dan sering kali gagal dalam hal kesetiaan pada objek referensi.

Arsitektur BootPIG

Dalam makalah penelitian ini, tim peneliti dari Salesforce AI telah mencoba mengatasi masalah di atas dan telah memperkenalkan arsitektur baru, BootPIG, yang memungkinkan kemampuan pembuatan gambar yang dipersonalisasi dalam model teks-ke-gambar. Ide di balik arsitektur ini adalah untuk memasukkan tampilan objek referensi ke dalam fitur model difusi yang telah dilatih sebelumnya sehingga gambar yang dihasilkan meniru objek referensi. Proses ini dilakukan dengan mengganti semua lapisan perhatian diri (SA) dengan operasi yang oleh penulis disebut sebagai perhatian diri referensi (RSA).

BootPIG telah dibangun di atas model difusi yang ada, dan arsitekturnya terdiri dari dua replika model difusi laten: Reference UNet dan Base UNet. Yang pertama digunakan untuk memproses gambar referensi dan mengumpulkan fitur-fiturnya sebelum setiap lapisan SA. Lapisan SA dari Base UNet dimodifikasi menjadi lapisan RSA, dan menggunakan fitur referensi sebagai input dan memandu pembuatan gambar ke arah objek referensi.

Pelatihan dan Evaluasi BootPIG

Untuk melatih BootPIG, para peneliti menggunakan saluran pembuatan data sintetis otomatis yang memanfaatkan kemampuan ChatGPT, Stable Diffusion, dan model Segment Anything. ChatGPT digunakan untuk menghasilkan teks, Stable Diffusion untuk pembuatan gambar, dan model Segment Anything untuk mengelompokkan latar depan gambar, yang kemudian digunakan sebagai gambar referensi. Yang terpenting, model ini dapat dilatih hanya dalam waktu sekitar 1 jam.

Untuk evaluasi, penulis membandingkan kinerja BootPIG dengan metode yang ada seperti BLIP-Diffusion, ELITE, dan Dreambooth. Hasil perbandingan kualitatif menunjukkan bahwa BootPIG mengungguli metode lain dalam hal subjek dan kesetiaan yang cepat dan menghindari penyetelan halus waktu pengujian. Selain itu, evaluasi manusia menyoroti keunggulan BootPIG dibandingkan metode lain. Penilai manusia secara konsisten lebih menyukai gambar yang dihasilkan oleh kerangka kerja dan menemukan subjek dan kesetiaan teks yang jauh lebih besar.

Keterbatasan BootPIG

BootPIG juga memiliki beberapa keterbatasan yang umum terjadi pada metode yang ada. Dalam banyak kasus, gagal untuk membuat detail halus dari subjek dan berjuang untuk mematuhi secara ketat perintah pengguna. Namun, beberapa kegagalannya juga diwarisi dari model yang mendasarinya. Namun demikian, BootPIG menunjukkan hasil yang mengesankan dalam hal pembuatan gambar yang dipersonalisasi. Para penulis percaya bahwa metode mereka dapat membantu mempelajari kemampuan baru dan membuka modalitas pembuatan gambar lainnya.