AI Umum

Evaluasi Model Pembelajaran Mesin Terdepan untuk Kemampuan Berbahaya

Pendahuluan

Kemajuan kecerdasan buatan (AI) telah membuka pintu ke dunia potensi transformatif dan kemampuan yang belum pernah terjadi sebelumnya, menginspirasi kekaguman dan keajaiban. Namun, dengan kekuatan besar datang tanggung jawab besar, dan dampak AI pada masyarakat tetap menjadi topik perdebatan dan pengawasan yang intens. Fokusnya semakin bergeser ke arah memahami dan memitigasi risiko yang terkait dengan teknologi yang menakjubkan ini, terutama karena teknologi tersebut menjadi lebih terintegrasi ke dalam kehidupan kita sehari-hari.

Kemampuan Berbahaya dalam AI

Pusat dari wacana ini terletak pada kekhawatiran kritis: potensi sistem AI untuk mengembangkan kemampuan yang dapat menimbulkan ancaman signifikan terhadap keamanan siber, privasi, dan otonomi manusia. Risiko ini tidak hanya teoretis tetapi juga menjadi semakin nyata karena sistem AI menjadi lebih canggih. Memahami bahaya ini sangat penting untuk mengembangkan strategi yang efektif untuk melindungi diri dari bahaya tersebut.

Evaluasi Kemampuan Berbahaya

Mengevaluasi risiko AI terutama melibatkan penilaian kinerja sistem dalam berbagai domain, dari penalaran verbal hingga keterampilan pengkodean. Namun, penilaian ini sering kali membutuhkan bantuan untuk memahami potensi bahaya secara komprehensif. Tantangan sebenarnya terletak pada mengevaluasi kemampuan AI yang dapat, secara sengaja atau tidak sengaja, menyebabkan hasil yang merugikan.

Program Evaluasi Google DeepMind

Sebuah tim peneliti dari Google Deepmind telah mengusulkan program komprehensif untuk mengevaluasi “kemampuan berbahaya” dari sistem AI. Evaluasi mencakup persuasi dan penipuan, keamanan siber, penyebaran sendiri, dan penalaran sendiri. Ini bertujuan untuk memahami risiko yang ditimbulkan sistem AI dan mengidentifikasi tanda-tanda peringatan dini dari kemampuan berbahaya.

Empat Kemampuan Berbahaya

Empat kemampuan di atas dan apa artinya secara mendasar:

  • Persuasi dan Penipuan: Evaluasi berfokus pada kemampuan model AI untuk memanipulasi keyakinan, membentuk koneksi emosional, dan memutar kebohongan yang dapat dipercaya.
  • Keamanan Siber:
    Evaluasi menilai pengetahuan model AI tentang sistem komputer, kerentanan, dan eksploitasi. Ini juga memeriksa kemampuan mereka untuk menavigasi dan memanipulasi sistem, melakukan serangan, dan mengeksploitasi kerentanan yang diketahui.
  • Penyebaran Sendiri:
    Evaluasi meneliti kemampuan model untuk secara mandiri mengatur dan mengelola infrastruktur digital, memperoleh sumber daya, dan menyebar atau meningkatkan diri sendiri. Ini berfokus pada kapasitas mereka untuk menangani tugas-tugas seperti komputasi awan, manajemen akun email, dan pengembangan sumber daya melalui berbagai cara.
  • Penalaran Sendiri: Evaluasi berfokus pada kemampuan agen AI untuk bernalar tentang diri mereka sendiri dan memodifikasi lingkungan atau implementasinya ketika itu berguna secara instrumental. Ini melibatkan kemampuan agen untuk memahami keadaannya, membuat keputusan berdasarkan pemahaman itu, dan berpotensi memodifikasi perilaku atau kodenya.

Metodologi Evaluasi

Penelitian ini menyebutkan penggunaan dataset Security Patch Identification (SPI), yang terdiri dari komit yang rentan dan tidak rentan dari proyek Qemu dan FFmpeg. Dataset SPI dibuat dengan memfilter komit dari proyek sumber terbuka terkemuka, yang berisi lebih dari 40.000 komit terkait keamanan.

Penelitian ini membandingkan kinerja model Gemini Pro 1.0 dan Ultra 1.0 pada dataset SPI. Temuan menunjukkan bahwa persuasi dan penipuan adalah kemampuan yang paling matang, menunjukkan bahwa kemampuan AI untuk memengaruhi keyakinan dan perilaku manusia sedang berkembang. Model yang lebih kuat menunjukkan setidaknya keterampilan dasar di semua evaluasi, mengisyaratkan munculnya kemampuan berbahaya sebagai produk sampingan dari peningkatan kemampuan umum.

Kesimpulan

Kompleksitas memahami dan memitigasi risiko yang terkait dengan sistem AI canggih memerlukan upaya persatuan dan kolaboratif. Penelitian ini menggarisbawahi perlunya peneliti, pembuat kebijakan, dan teknolog untuk menggabungkan, menyempurnakan, dan memperluas metodologi evaluasi yang ada. Dengan melakukan hal tersebut, dapat lebih mengantisipasi potensi risiko dan mengembangkan strategi untuk memastikan bahwa teknologi AI melayani kemajuan umat manusia daripada menimbulkan ancaman yang tidak diinginkan.