AI Umum

Pemisahan Instruksi-Data dalam LLM: Studi Perlindungan AI dari Manipulasi dengan Dataset SEP (Harus Dieksekusi atau Diproses?)

Pendahuluan dan Evaluasi

Model Bahasa Besar (LLM) sangat penting untuk aplikasi kecerdasan buatan modern, menyediakan kecerdasan komputasi yang diperlukan untuk memahami dan menghasilkan teks seperti manusia. Model-model ini sangat penting di berbagai bidang, mulai dari mengaktifkan fungsionalitas mesin pencari tingkat lanjut hingga membuat solusi khusus untuk industri tertentu melalui pemrosesan bahasa alami.

Fleksibilitas dan kemampuan adaptasi LLM untuk memahami instruksi dalam bentuk bahasa alami menjadi inti dari adopsi luas mereka. Kekhawatiran signifikan yang membayangi kemajuan teknologi LLM adalah memastikan model-model ini beroperasi dengan aman dan sesuai tujuan, terutama saat berinteraksi dengan banyak sumber data, yang beberapa di antaranya mungkin perlu lebih andal. Inti dari masalah ini terletak pada kemampuan model untuk membedakan antara perintah yang seharusnya mereka jalankan dan data yang seharusnya mereka proses. Tidak adanya batas yang jelas antara kedua aspek ini dapat menyebabkan model menjalankan tugas atau perintah yang tidak pernah dimaksudkan, sehingga membahayakan keamanan dan keandalannya.

Upaya untuk mengamankan LLM telah difokuskan pada pengurangan risiko jailbreak, di mana model ditipu untuk melewati protokol keamanannya. Namun, langkah-langkah ini sering kali perlu lebih memperhatikan masalah bernuansa dalam membedakan instruksi dari data. Kelalaian ini meninggalkan kerentanan yang menganga di mana model dapat dimanipulasi melalui cara-cara canggih seperti injeksi perintah tidak langsung, pada dasarnya perintah yang disembunyikan dalam data untuk mengeksploitasi ambiguitas ini.

Para peneliti dari ISTA dan CISPA Helmholtz Center for Information Security memelopori pendekatan baru dengan memperkenalkan ukuran formal dan empiris untuk mengevaluasi tingkat pemisahan antara instruksi dan data dalam LLM. Mereka juga memperkenalkan dataset SEP (Harus Dieksekusi atau Diproses?), yang menawarkan sumber unik untuk menilai dan membandingkan kinerja LLM secara sistematis terhadap kriteria keselamatan penting ini. Dataset ini dirancang untuk menantang model dengan input yang mengaburkan batas antara perintah dan data, memberikan kerangka kerja yang kuat untuk mengidentifikasi potensi kelemahan dalam pemisahan instruksi-data.

Salah satu aspek penelitian ini adalah kerangka analitiknya, yang mengevaluasi bagaimana LLM menangani string probe, input yang dapat dilihat sebagai perintah atau data. Metode para peneliti mengukur kecenderungan model untuk memperlakukan probe ini sebagai salah satu atau yang lain, menawarkan metrik nyata untuk mengukur kerentanan model terhadap manipulasi.

Temuan awal dari pengujian beberapa LLM terkemuka, termasuk GPT-3.5 dan GPT-4, mengungkapkan kenyataan yang mencolok: tidak ada model yang menunjukkan tingkat pemisahan instruksi-data yang memuaskan. GPT-3.5 memiliki skor pemisahan empiris sebesar 0,653, sementara GPT-4 mendapat skor lebih rendah pada 0,225, yang menunjukkan risiko signifikan untuk mengeksekusi instruksi yang tidak diinginkan.

Sebagai kesimpulan, penelitian ini mengungkap kerentanan kritis dalam prinsip operasi dasar Model Bahasa Besar, mengaburkan batas antara instruksi dan data. Dataset SEP yang inovatif dan kerangka evaluasi yang komprehensif secara kuantitatif menunjukkan tingkat masalah ini di beberapa model canggih. Hasilnya menunjukkan perlunya perubahan paradigma dalam cara LLM dirancang dan dilatih, yang menekankan kebutuhan mendesak akan model yang dapat memisahkan instruksi dari data, meningkatkan keamanan dan keandalannya dalam aplikasi dunia nyata.