AI Umum

Penelitian AI Memperkenalkan SafeEdit: Tolok Ukur Baru untuk Menyelidiki Detoksifikasi LLM melalui Pengeditan Pengetahuan

Pendahuluan

Dengan kemajuan Model Bahasa Besar (LLM) seperti ChatGPT, LLaMA, dan Mistral, kekhawatiran tentang kerentanan mereka terhadap kueri berbahaya semakin meningkat, sehingga diperlukan perlindungan yang kuat. Pendekatan seperti fine-tuning yang diawasi (SFT), pembelajaran penguatan dari umpan balik manusia (RLHF), dan optimalisasi preferensi langsung (DPO) telah banyak diadopsi untuk meningkatkan keamanan LLM, memungkinkan mereka menolak kueri berbahaya.

Tantangan dalam Detoksifikasi LLM

Meskipun ada kemajuan ini, model yang selaras mungkin masih rentan terhadap permintaan serangan yang canggih, menimbulkan pertanyaan tentang modifikasi yang tepat dari wilayah beracun dalam LLM untuk mencapai detoksifikasi. Studi terbaru telah menunjukkan bahwa pendekatan sebelumnya, seperti DPO, mungkin hanya menekan aktivasi parameter beracun tanpa secara efektif mengatasi kerentanan yang mendasarinya, menggarisbawahi pentingnya mengembangkan metode detoksifikasi yang tepat.

Pengeditan Pengetahuan untuk Detoksifikasi LLM

Menanggapi tantangan ini, beberapa tahun terakhir telah melihat kemajuan signifikan dalam metode pengeditan pengetahuan yang dirancang khusus untuk LLM, memungkinkan penyesuaian pasca pelatihan tanpa mengorbankan kinerja secara keseluruhan. Memanfaatkan pengeditan pengetahuan untuk mendetoksifikasi LLM tampak intuitif; namun, kumpulan data dan metrik evaluasi yang ada telah berfokus pada masalah berbahaya tertentu, mengabaikan ancaman yang ditimbulkan oleh permintaan serangan dan mengabaikan generalisasi ke berbagai input berbahaya.

SafeEdit: Tolok Ukur untuk Detoksifikasi LLM

Untuk mengatasi kesenjangan ini, para peneliti di Universitas Zhejiang telah memperkenalkan SafeEdit, tolok ukur komprehensif yang dirancang untuk mengevaluasi tugas detoksifikasi melalui pengeditan pengetahuan. SafeEdit mencakup sembilan kategori tidak aman dengan templat serangan yang kuat dan memperluas metrik evaluasi untuk memasukkan keberhasilan pertahanan, generalisasi pertahanan, dan kinerja umum, menyediakan kerangka kerja standar untuk menilai metode detoksifikasi.

Pendekatan Pengeditan Pengetahuan

Beberapa pendekatan pengeditan pengetahuan, termasuk MEND dan Ext-Sub, telah dieksplorasi pada model LLaMA dan Mistral, menunjukkan potensi untuk mendetoksifikasi LLM secara efisien dengan dampak minimal pada kinerja umum. Namun, metode yang ada terutama menargetkan pengetahuan faktual dan mungkin perlu bantuan mengidentifikasi wilayah beracun sebagai respons terhadap input adversarial kompleks yang mencakup beberapa kalimat.

DINM: Baseline Pengeditan Pengetahuan yang Baru

Untuk mengatasi tantangan ini, para peneliti telah mengusulkan baseline pengeditan pengetahuan baru, Detoxifying with Intraoperative Neural Monitoring (DINM), yang bertujuan untuk mengurangi wilayah beracun dalam LLM sambil meminimalkan efek samping. Eksperimen ekstensif pada model LLaMA dan Mistral telah menunjukkan bahwa DINM mengungguli metode SFT dan DPO tradisional dalam mendetoksifikasi LLM, menunjukkan kinerja detoksifikasi yang lebih kuat, efisiensi, dan pentingnya menemukan wilayah beracun secara akurat.

Kesimpulan

Kesimpulannya, temuan ini menggarisbawahi potensi signifikan pengeditan pengetahuan untuk mendetoksifikasi LLM, dengan diperkenalkannya SafeEdit yang menyediakan kerangka kerja standar untuk evaluasi. Metode DINM yang efisien dan efektif merupakan langkah menjanjikan untuk mengatasi tantangan mendetoksifikasi LLM, menyoroti aplikasi masa depan dari fine-tuning yang diawasi, optimalisasi preferensi langsung, dan pengeditan pengetahuan dalam meningkatkan keamanan dan ketahanan model bahasa besar.