AI Umum

Tim Merah AI Microsoft dan PyRIT

Tim Merah AI Microsoft

Di Microsoft, kami yakin penting bagi semua orang untuk berkontribusi dalam langkah-langkah keamanan dan tugas AI generatif. Misi perusahaan mereka adalah menyediakan pengetahuan dan sumber daya yang dibutuhkan bisnis dunia untuk berinovasi secara etis dengan AI. Dedikasi berkelanjutan mereka untuk mendemokratisasi keamanan AI bagi pelanggan, mitra, dan rekan tercermin dalam alat ini dan upaya sebelumnya yang telah kami lakukan dalam tim merah AI sejak 2019.

Tim Merah AI Microsoft telah menguji PyRIT dalam pertempuran

Tim Merah AI Microsoft telah menguji PyRIT dalam pertempuran. Pada tahun 2022, ketika kami pertama kali memulai tim merah sistem AI generatif, itu hanyalah kumpulan skrip mandiri. Fitur ditambahkan berdasarkan temuan kami selama tim merah dari berbagai sistem AI generatif dan penilaian risiko. Saat ini, Tim Merah AI Microsoft mengandalkan PyRIT.

Memeriksa keamanan dan risiko AI yang bertanggung jawab secara bersamaan

Kami menemukan bahwa sistem AI generatif tim merah melibatkan risiko keamanan dan risiko AI yang bertanggung jawab, tidak seperti tim merah perangkat lunak klasik atau sistem AI. Risiko AI yang bertanggung jawab, seperti ancaman keamanan, dapat berkisar dari masalah keadilan hingga konten yang tidak berdasar atau salah. Tim merah AI harus menilai risiko keamanan dan kegagalan AI secara bersamaan.

AI generatif lebih bersifat probabilistik daripada tim merah

Kedua, sistem AI generatif tim merah lebih bersifat probabilistik daripada tim merah standar. Sebaliknya, mengulangi jalur serangan yang sama pada sistem perangkat lunak yang lebih lama dapat memberikan hasil yang sebanding. Namun, sistem AI generatif mencakup banyak tingkat non-determinisme, sehingga input yang sama dapat menghasilkan hasil yang beragam. Hal ini mungkin disebabkan oleh logika khusus aplikasi, model AI generatif, orkestra yang mengontrol keluaran sistem, ekstensibilitas atau plugin, atau bahkan bahasa, yang dapat memberikan hasil yang berbeda dengan sedikit modifikasi. Kami menemukan bahwa sistem AI generatif harus didekati secara probabilistik, tidak seperti sistem perangkat lunak standar dengan API dan parameter yang jelas yang dapat diselidiki menggunakan alat tim merah.

Arsitektur AI generatif sangat berbeda

Terakhir, arsitektur sistem AI generatif ini berkisar dari aplikasi mandiri hingga integrasi dalam aplikasi saat ini hingga teks, audio, foto, dan video. Perbedaan ini menimbulkan bahaya tiga kali lipat bagi penyelidikan tim merah manual. Untuk mengidentifikasi satu risiko (misalnya, membuat konten kekerasan) dalam satu modalitas aplikasi (misalnya, antarmuka obrolan web), tim merah harus mencoba berbagai taktik beberapa kali untuk menemukan kemungkinan kegagalan. Menilai semua risiko, modalitas, dan strategi secara manual dapat menjadi sulit dan lambat.

Microsoft meluncurkan kerangka kerja otomatisasi tim merah untuk sistem pembelajaran mesin konvensional pada tahun 2021. Karena perubahan pada permukaan ancaman dan prinsip-prinsip yang mendasarinya, Counterfit tidak dapat menyamai tujuan kami untuk aplikasi AI generatif. Kami memikirkan kembali bagaimana mengaktifkan sistem AI generatif tim merah profesional keamanan dan membuat perangkat baru kami.