AI Umum

Peningkatan Pengambilan Teks dengan Pembelajaran Transfer: Pengenalan Model SFR-Embedding

Pengantar

Peneliti Salesforce AI memperkenalkan model SFR-Embedding-Mistral untuk mengatasi tantangan dalam meningkatkan model penyisipan teks untuk berbagai tugas pemrosesan bahasa alami (NLP), termasuk pengambilan, pengelompokan, klasifikasi, dan kesamaan teks semantik.

Model Penyisipan Teks yang Ada

Model yang ada telah menunjukkan kinerja terbaik dalam tugas-tugas tertentu, tetapi masih ada peluang untuk peningkatan untuk mencapai kinerja yang lebih baik di berbagai tolok ukur. Model penyisipan teks saat ini seperti E5-mistral-7b-instruct dan Mistral-7B-v0.1 membentuk dasar untuk model SFR-embedding-mistral yang diusulkan. Kinerjanya optimal untuk berbagai tugas, tetapi model ini memiliki keterbatasan dalam tugas pengambilan dan pengelompokan.

Model SFR-Embedding-Mistral

Para peneliti memperkenalkan SFR-Embedding-Mistral sebagai pendekatan baru yang memanfaatkan pelatihan multi-tugas, pengumpulan tugas yang homogen, dan negatif yang sulit untuk meningkatkan kinerja model secara signifikan. Mereka melakukan penyempurnaan pada model e5-mistral-7b-instruct, menggunakan teknik seperti kerugian kontrastif dan model guru untuk penambangan negatif yang sulit.

Pelatihan dan Evaluasi

Model SFR-Embedding-Mistral dilatih pada kumpulan data yang beragam yang mencakup tugas pengambilan, pengelompokan, klasifikasi, dan kesamaan teks semantik. Model ini belajar menggeneralisasi melalui pelatihan multi-tugas, yang mengarah pada peningkatan kinerja di berbagai tolok ukur.

Penggabungan tugas pengelompokan bersama dengan tugas pengambilan menghasilkan peningkatan substansial dalam kinerja pengambilan, menunjukkan efektivitas integrasi tugas. Teknik seperti pengumpulan tugas yang homogen dan pemilihan strategis negatif yang sulit berkontribusi pada peningkatan lebih lanjut dalam akurasi dan generalisasi model.

Kesimpulan

Peneliti Salesforce menyajikan model SFR-Embedding-Mistral sebagai kemajuan signifikan dalam teknologi penyisipan teks, mengatasi kebutuhan akan peningkatan kinerja di berbagai tugas NLP. Dengan mengintegrasikan pelatihan multi-tugas, pengumpulan tugas yang homogen, dan strategi penambangan negatif yang sulit yang efektif, model yang diusulkan mencapai hasil terbaik, terutama dalam tugas pengambilan.