AI Umum

Serangan Pencurian Model AI Terobosan pada ChatGPT dan PaLM-2 Google

Pendahuluan

Model bahasa besar (LLM) canggih seperti GPT-4, Claude 2, atau Gemini dirahasiakan, dengan detail arsitektur, ukuran model, dan metode pelatihan yang disembunyikan dari publik. Kurangnya transparansi ini disebabkan oleh tekanan persaingan dan kekhawatiran tentang implikasi keamanan dari pengungkapan informasi yang dapat dieksploitasi untuk menyerang model-model ini.

Serangan Pencurian Model

Meskipun kerahasiaan seputar detail internal model, aksesibilitasnya melalui API menimbulkan pertanyaan tentang sejauh mana musuh dapat memperoleh informasi tentang model melalui kueri. Masalah ini termasuk dalam pencurian model, di mana musuh mencoba mengekstrak bobot model dengan menginterogasi API model.

Serangan Proyeksi Penyelaman

Para peneliti menyajikan pendekatan terobosan, serangan baru yang menargetkan model bahasa kotak hitam. Serangan ini, yang dirancang khusus untuk memulihkan lapisan proyeksi penanaman model bahasa transformator yang lengkap, berbeda dari pendekatan sebelumnya yang merekonstruksi model dari bawah ke atas. Sebaliknya, serangan ini beroperasi dari atas ke bawah, langsung mengekstrak lapisan terakhir model.

Dengan mengeksploitasi sifat peringkat rendah dari lapisan terakhir, kueri yang ditargetkan ke API model memungkinkan ekstraksi dimensi penanaman atau matriks bobot terakhirnya. Metode inovatif ini, meskipun hanya memulihkan sebagian dari seluruh model, menimbulkan kekhawatiran tentang potensi serangan yang lebih luas di masa mendatang.

Model yang Terpengaruh

Efektivitas dan efisiensi serangan ini berlaku untuk model produksi yang API-nya mengekspos logprob penuh atau “bias logit”, termasuk PaLM-2 Google dan GPT-4 OpenAI. Setelah pengungkapan yang bertanggung jawab, kedua API menerapkan pertahanan untuk mengurangi atau meningkatkan biaya serangan.

Peningkatan dan Ekstensi Masa Depan

Meskipun serangan tersebut berhasil mengekstrak lapisan penanaman dari beberapa model OpenAI dengan kesalahan minimal, peningkatan dan ekstensi lebih lanjut direncanakan. Ini termasuk memecah simetri dengan bobot terkuantisasi, memperluas serangan di luar satu lapisan, dan mengeksplorasi cara alternatif untuk mempelajari informasi logit, karena efektivitas serangan dapat terhambat oleh perubahan parameter API atau upaya untuk menyembunyikan informasi logit.

Implikasi dan Langkah Selanjutnya

Studi ini tidak didorong oleh harapan untuk mereplikasi seluruh model transformator produksi bit-per-bit. Sebaliknya, studi ini dimotivasi oleh kekhawatiran yang lebih mendesak: menunjukkan kelayakan praktis dari serangan pencurian model pada model yang digunakan dalam skala besar. Penekanan pada kepraktisan ini menggarisbawahi urgensi untuk mengatasi kerentanan ini dan mengantisipasi arah masa depan untuk meningkatkan efektivitas serangan dan ketahanan terhadap tindakan balasan.

Para peneliti menguraikan potensi jalan untuk eksplorasi lebih lanjut dan peningkatan metodologi serangan. Mereka menekankan pentingnya kemampuan beradaptasi dalam menanggapi perubahan parameter API atau pertahanan model, menekankan perlunya penelitian berkelanjutan untuk mengatasi kerentanan yang muncul dan memastikan ketahanan sistem pembelajaran mesin terhadap potensi ancaman.

Dengan mendorong kolaborasi dan berbagi pengetahuan dalam komunitas penelitian, para peneliti bertujuan untuk berkontribusi pada pengembangan model pembelajaran mesin yang lebih aman dan tepercaya yang dapat menahan potensi serangan musuh di dunia nyata.