AI Umum

Cara Model Bahasa Balik Melawan Keluaran Beracun

Model bahasa (LM) menunjukkan perilaku bermasalah dalam kondisi tertentu:

  • Model obrolan dapat menghasilkan tanggapan yang tidak pantas saat disajikan dengan contoh yang berlawanan.
  • LM yang diminta untuk menantang LM lain dapat menghasilkan pertanyaan yang memicu tanggapan yang tidak pantas.
  • LM dapat dengan mudah teralihkan oleh teks yang tidak relevan.

Mengatasi Kerentanan LM

Untuk meningkatkan ketahanan LM terhadap masukan pengguna terburuk, satu strategi melibatkan penggunaan teknik yang mengotomatiskan pengujian yang berlawanan, mengidentifikasi kerentanan, dan memunculkan perilaku yang tidak diinginkan tanpa campur tangan manusia.

Meskipun metode yang ada dapat secara otomatis mengungkap kekurangan dalam LM, seperti menyebabkan mereka berkinerja buruk atau menghasilkan keluaran yang tidak pantas, metode ini sering kali menghasilkan string yang tata bahasanya tidak benar atau tidak masuk akal.

Untuk mengatasinya, metode pengujian yang berlawanan otomatis harus bertujuan untuk menghasilkan masukan bahasa alami yang dapat memicu tanggapan bermasalah yang mirip dengan skenario dunia nyata.

Model Bahasa Balik

Untuk menyelesaikan ini, para peneliti di Eleuther AI berfokus pada identifikasi otomatis perintah bahasa alami yang terbentuk dengan baik yang dapat memunculkan perilaku sewenang-wenang dari LM yang telah dilatih sebelumnya. Proses ini dapat dibingkai sebagai masalah optimasi: diberikan LM, identifikasi urutan token yang memaksimalkan probabilitas menghasilkan kelanjutan yang diinginkan, biasanya pernyataan yang tidak pantas atau bermasalah.

Namun, penting untuk mempertahankan kealamian teks sebagai kendala untuk memastikan bahwa masukan yang dihasilkan menyerupai yang ditulis oleh manusia. Meskipun ketahanan LM terhadap urutan yang sewenang-wenang dan tidak alami tidak penting, LM harus secara efektif menangani masukan yang meniru teks yang dihasilkan manusia.

Untuk mengatasinya, para peneliti memperkenalkan kealamian sebagai kendala sampingan pada masalah optimasi, yang bertujuan untuk meminta yang memunculkan tanggapan yang diinginkan sambil mempertahankan perpleksitas rendah pada model maju.

Mereka memecahkan masalah ini dengan melibatkan model bahasa balik dari distribusi bersyarat atas generasi LM dengan mengkondisikan token dalam urutan terbalik. Untuk memfasilitasi ini, mereka melakukan pra-pelatihan LM balik pada token dalam urutan terbalik.

Mengingat sufiks target untuk dimunculkan dari LM dan LM balik, mereka melakukan penggalian perilaku dengan mengambil sampel beberapa lintasan dari LM balik, memasukkan lintasan ini ke dalam LM maju, dan memilih lintasan prefiks yang memaksimalkan probabilitas menghasilkan sufiks target.

Kontribusi Penelitian

Kontribusi penelitian mereka meliputi:

  • Mendefinisikan masalah pengambilan sampel dinamika balik LM untuk penggalian perilaku.
  • Mendemonstrasikan cara mengambil sampel dari distribusi bersyarat balik hanya dengan akses kotak hitam ke LM maju.
  • Melatih dan mengevaluasi LM balik.
  • Menerapkannya sebagai alat penggalian perilaku untuk menghasilkan teks yang tidak pantas dan dalam distribusi.

Ketika dievaluasi berdasarkan kemungkinan penggalian sufiks dan kealamian prefiks, LM balik mengungguli metode serangan yang berlawanan canggih dalam hal prefiks yang dioptimalkan.