AI Umum

InternLM2: Model Bahasa Besar Sumber Terbuka dengan Performa Luar Biasa

Pendahuluan

Dalam lanskap kecerdasan buatan yang terus berkembang, pencarian model bahasa yang lebih canggih dan mumpuni telah menjadi pendorong utama. Para peneliti di Shanghai AI Laboratory, SenseTime Group, The Chinese University of Hong Kong, dan Fudan University telah meluncurkan InternLM2, sebuah pencapaian sumber terbuka yang luar biasa dalam Model Bahasa Besar (LLM).

Inovasi InternLM2

Model Encoder-Decoder yang Dapat Digunakan Kembali

InternLM2 menggunakan metode inovatif untuk membangun model encoder-decoder dengan modul decoder yang dapat digunakan kembali. Modul-modul ini dapat diterapkan secara mulus di berbagai tugas pembuatan urutan, mulai dari terjemahan mesin dan pengenalan ucapan otomatis hingga pengenalan karakter optik.

Kerangka Pelatihan InternEvo

InternLM2 menggunakan kerangka pelatihan canggih yang disebut InternEvo, yang memungkinkan pelatihan model yang efisien dan terukur di ribuan GPU. Kerangka ini memanfaatkan kombinasi paralelisme data, tensor, urutan, dan saluran, ditambah dengan berbagai strategi optimasi seperti Zero Redundancy Optimizer (ZeRO) dan pelatihan presisi campuran. Hasilnya adalah pengurangan signifikan dalam jejak memori yang diperlukan untuk pelatihan, yang mengarah pada peningkatan performa yang luar biasa.

Penanganan Panjang Konteks yang Diperpanjang

Salah satu inovasi utama dalam InternLM2 adalah kemampuannya untuk menangani panjang konteks yang diperpanjang. Dengan menggunakan Group Query Attention (GQA), model dapat menyimpulkan urutan panjang dengan jejak memori yang lebih kecil. Selain itu, proses pelatihan dimulai dengan korpus konteks 4K dan secara bertahap bertransisi ke korpus konteks 32K, yang semakin meningkatkan kemampuan pemrosesan konteks panjang model.

COOL RLHF

Para peneliti memperkenalkan COnditional OnLine RLHF (COOL RLHF), sebuah pendekatan baru yang mengatasi tantangan konflik preferensi dan peretasan hadiah yang dihadapi selama tahap Reinforcement Learning from Human Feedback (RLHF). COOL RLHF menggunakan model hadiah bersyarat untuk merekonsiliasi preferensi yang beragam dan menjalankan Proximal Policy Optimization (PPO) selama beberapa putaran, mengurangi peretasan hadiah yang muncul di setiap fase.

Evaluasi Kinerja

Para peneliti melakukan penilaian komprehensif di berbagai domain dan tugas untuk mengevaluasi kinerja InternLM2. Dari pemeriksaan komprehensif dan tantangan penalaran hingga tugas pengkodean dan pemodelan konteks panjang, InternLM2 menunjukkan kecakapan yang luar biasa. Khususnya, model ini unggul dalam tugas yang melibatkan pemahaman bahasa, penerapan pengetahuan, dan penalaran akal sehat, menjadikannya pilihan yang menjanjikan untuk aplikasi dunia nyata yang menuntut pemahaman bahasa yang kuat dan pengetahuan yang luas.

Kesimpulan

InternLM2 merupakan langkah maju yang signifikan dalam pengembangan Model Bahasa Besar. Dengan teknik inovatif, kerangka pelatihan yang terukur, dan kinerja luar biasa di berbagai tugas, model ini menjadi bukti pengejaran tanpa henti untuk mendorong batas kecerdasan buatan. Saat para peneliti terus menyempurnakan dan memajukan LLM, kita dapat mengantisipasi pencapaian yang lebih inovatif yang akan membentuk masa depan interaksi manusia-mesin dan kemampuan pemecahan masalah.