AI Umum

Model Konsistensi Multilangkah: Pendekatan Pembelajaran Mesin yang Menyeimbangkan Kecepatan dan Kualitas dalam Pengambilan Sampel AI

Pendahuluan

Model difusi telah menjadi terkenal dalam pembuatan gambar, video, dan audio, tetapi proses pengambilan sampelnya mahal secara komputasi dibandingkan dengan pelatihan. Model Konsistensi menawarkan pengambilan sampel yang lebih cepat tetapi mengorbankan kualitas gambar, dengan Pelatihan Konsistensi (CT) dan Distilasi Konsistensi (CD) sebagai variannya. TRACT berfokus pada distilasi, membagi lintasan difusi menjadi beberapa tahap untuk meningkatkan kinerja. Namun, baik Model Konsistensi maupun TRACT tidak mencapai kinerja yang sebanding dengan model difusi standar.

Penelitian Sebelumnya

Penelitian sebelumnya mencakup Model Konsistensi dan TRACT. Yang pertama beroperasi pada beberapa tahap, menyederhanakan tugas pemodelan dan meningkatkan kinerja, sementara yang terakhir berfokus pada distilasi, secara bertahap mengurangi tahap menjadi satu atau dua untuk pengambilan sampel. DDIM menunjukkan bahwa pengambil sampel deterministik menurun lebih baik daripada pengambil sampel stokastik dengan langkah pengambilan sampel yang terbatas. Pendekatan lain termasuk pengambil sampel Heun orde kedua, integrator SDE yang berbeda, arsitektur khusus, dan Distilasi Progresif untuk mengurangi evaluasi model dan langkah pengambilan sampel.

Model Konsistensi Multilangkah

Para peneliti dari Google Deepmind telah mengusulkan metode pembelajaran mesin yang menyatukan Model Konsistensi dan TRACT untuk mempersempit kesenjangan kinerja antara model difusi standar dan varian langkah rendah. Ini melonggarkan kendala satu langkah, memungkinkan 4, 8, atau 16 evaluasi fungsi. Generalisasi mencakup penyesuaian penjadwalan langkah dan pengabaian tersinkronisasi dari pemodelan konsistensi.

Model Konsistensi Multilangkah membagi proses difusi menjadi beberapa segmen, meningkatkan kinerja dengan lebih sedikit langkah. Pengambil sampel deterministik yang disebut Adjusted DDIM (aDDIM) mengoreksi kesalahan integrasi untuk sampel yang lebih tajam.

Eksperimen dan Hasil

Eksperimen menunjukkan bahwa Model Konsistensi MultiLangkah mencapai skor FID tercanggih pada ImageNet64, melampaui Distilasi Progresif (PD) pada berbagai jumlah langkah. Juga, pada ImageNet128, Model Konsistensi MultiLangkah mengungguli PD. Secara kualitatif, perbandingan mengungkapkan perbedaan kecil dalam detail sampel antara Model Konsistensi MultiLangkah dan model difusi standar dalam tugas teks-ke-gambar. Hasil ini menyoroti kemanjuran Model Konsistensi MultiLangkah dalam meningkatkan kualitas sampel dan efisiensi dibandingkan dengan metode yang ada.

Kesimpulan

Para peneliti memperkenalkan model konsistensi multilangkah, menggabungkannya dengan model konsistensi dan TRACT untuk mempersempit kesenjangan kinerja antara difusi standar dan pengambilan sampel beberapa langkah. Ini menawarkan pertukaran langsung antara kualitas sampel dan kecepatan, mencapai kinerja yang lebih unggul dari difusi standar hanya dalam delapan langkah. Penyatuan ini secara signifikan meningkatkan kualitas sampel dan efisiensi dalam tugas pemodelan generatif.