AI Umum

Nomic Embed: Model Pemrosesan Teks Berkinerja Tinggi dengan Panjang Konteks 8192

Latar Belakang

Model pemrosesan teks yang ada saat ini, termasuk text-embedding-ada-002 dari OpenAI, kurang terbuka dan dapat diaudit. Hal ini menimbulkan tantangan dalam mengembangkan model pemrosesan teks yang mengungguli model sumber tertutup saat ini.

Solusi yang Diusulkan: Nomic Embed

Nomic AI memperkenalkan Nomic Embed, model pemrosesan teks sumber terbuka, dapat diaudit, dan berkinerja tinggi. Model ini memiliki beberapa fitur utama, termasuk:

  • Panjang konteks 8192
  • Dapat direproduksi
  • Transparan

Proses Pelatihan

Nomic Embed dibangun melalui proses pembelajaran kontrastif multi-tahap. Proses ini dimulai dengan melatih model BERT dengan panjang konteks 2048 token, yang disebut nomic-bert-2048, dengan modifikasi yang terinspirasi oleh MosaicBERT. Pelatihan melibatkan:

  • Rotary position embeddings
  • Aktivasi SwiGLU
  • Deep speed dan FlashAttention
  • Presisi BF16

Model ini menggunakan kosakata dengan ukuran yang lebih besar dan ukuran batch sebesar 4096. Model ini kemudian dilatih secara kontrastif dengan ~235 juta pasangan teks, memastikan kumpulan data berlabel berkualitas tinggi dan penambangan contoh yang sulit.

Kinerja

Nomic Embed mengungguli model yang ada pada tolok ukur seperti Massive Text Embedding Benchmark (MTEB), LoCo Benchmark, dan Jina Long Context Benchmark. Model ini tidak hanya melampaui model sumber tertutup seperti text-embedding-ada-002 dari OpenAI, tetapi juga mengungguli model sumber terbuka lainnya pada berbagai tolok ukur.

Keterbukaan dan Reproduksibilitas

Penekanan pada transparansi, reproduksibilitas, dan pelepasan bobot model, kode pelatihan, dan data yang dikurasi menunjukkan komitmen terhadap keterbukaan dalam pengembangan AI.

Signifikansi

Kinerja Nomic Embed pada tugas konteks panjang dan seruan untuk paradigma evaluasi yang lebih baik menggarisbawahi signifikansinya dalam memajukan bidang pemrosesan teks.