AI Umum

Integrasi Embeddings Pengguna untuk Mengoptimalkan LLM: Pengantar USER-LLM dari Google AI

Pendahuluan

Model Bahasa Besar (LLM) telah merevolusi pemrosesan bahasa alami, menghadirkan peluang untuk pemodelan dan personalisasi pengguna. Namun, mengintegrasikan data interaksi pengguna secara efektif masih menjadi tantangan. Data tersebut, yang mencakup berbagai keterlibatan digital, memberikan wawasan berharga tetapi sering kali rumit dan bising. Penyesuaian LLM secara langsung dengan riwayat interaksi menghadapi rintangan seperti data yang jarang, interaksi multimodal, dan urutan yang panjang. Mengatasi tantangan ini sangat penting untuk meningkatkan layanan berbasis bahasa yang dipersonalisasi.

Tantangan Integrasi Data Interaksi Pengguna

Metode yang ada, seperti penyesuaian LLM secara langsung pada data interaksi pengguna, menunjukkan potensi dalam mendukung berbagai tugas NLP dan meningkatkan pemodelan pengguna. Namun, mereka menghadapi tantangan karena kompleksitas dan kebisingan yang melekat dalam data interaksi pengguna. Masalahnya meliputi titik data yang jarang, interaksi multimodal, dan kesulitan mengidentifikasi pola yang relevan. Selain itu, metode ini membutuhkan bantuan untuk memahami konteks dan niat pengguna yang laten, terutama dalam riwayat interaksi yang panjang, yang menimbulkan keterbatasan komputasi.

USER-LLM: Solusi dari Google AI

Para peneliti dari Google Research telah mengusulkan USER-LLM, sebuah kerangka kerja yang mengintegrasikan embeddings pengguna dengan LLM untuk beradaptasi secara dinamis dengan konteks pengguna. Embeddings pengguna, yang disuling dari berbagai interaksi melalui prapelatihan yang diawasi sendiri, menangkap preferensi pengguna yang terus berkembang.

Metodologi USER-LLM

Kerangka kerja USER-LLM melibatkan dua tahap: pembuatan embedding dan kontekstualisasi LLM.

  • Pembuatan Embedding: Encoder berbasis Transformer membuat embeddings pengguna dari data interaksi multimodal, menggunakan desain autoregresif. Embeddings ini berfungsi sebagai konteks pengguna untuk LLM, memungkinkan pembuatan respons yang dipersonalisasi.
  • Kontekstualisasi LLM:
    Melibatkan integrasi embeddings pengguna dengan LLM menggunakan perhatian silang. Pendekatan ini menawarkan peningkatan efisiensi dengan memanfaatkan bobot yang telah dilatih sebelumnya dan memadatkan aktivitas pengguna menjadi representasi yang padat, meningkatkan efisiensi inferensi. Selain itu, ia menggunakan unit persepsi untuk lebih mengoptimalkan efisiensi inferensi dengan mengompresi embeddings pengguna dan menyaring wawasan dari konteks yang bising.

Evaluasi dan Hasil

USER-LLM dievaluasi pada tiga kumpulan data yang diakui secara luas: MovieLens20M, Google Local Review, dan Amazon Review. Kumpulan data ini menampilkan fitur interaksi yang beragam seperti nama film, genre, peringkat, dan ulasan. Dibandingkan dengan garis dasar termasuk Dual Encoder dan Bert4Rec, USER-LLM menunjukkan kinerja yang unggul di seluruh tugas seperti prediksi item berikutnya, prediksi genre/kategori favorit, dan pembuatan ulasan multimodal. Ia mengungguli metode berbasis teks, menunjukkan keefektifannya dalam memahami niat dan preferensi pengguna dari data interaksi. USER-LLM juga menunjukkan efisiensi parameter dengan mencapai akurasi tugas yang kompetitif dengan parameter yang lebih sedikit yang disetel dan menawarkan efisiensi inferensi dengan memadatkan informasi peristiwa menjadi representasi yang padat, yang mengarah pada kecepatan inferensi yang lebih cepat.

Kesimpulan

Para peneliti dari Google Research menyajikan USER-LLM untuk mengontekstualisasikan LLM menggunakan embeddings pengguna yang diekstrak dari berbagai interaksi. Melalui mekanisme perhatian silang dan soft-prompt, USER-LLM memungkinkan LLM untuk beradaptasi secara dinamis dengan konteks pengguna, yang mengarah pada peningkatan kinerja yang signifikan di berbagai tugas. Kinerja kompetitifnya, efisiensi komputasi, dan kemampuan untuk melestarikan pengetahuan LLM membuatnya menjanjikan untuk aplikasi pemahaman pengguna dunia nyata, terutama dalam menangani urutan panjang dan pemahaman pengguna yang mendalam.