AI Umum

Pelatihan Model Besar 100B yang Efisien dengan Biaya Rendah pada Server Kelas Bawah

Pendahuluan

Model bahasa besar (LLM) telah merevolusi pemrosesan bahasa alami, menunjukkan kemampuan luar biasa karena jumlah parameternya yang sangat besar. Model-model ini, yang dicontohkan oleh model transformator padat yang transformatif, tidak hanya memecahkan rekor akurasi tetapi juga menjadi aset penting dalam tugas manajemen data.

Ukuran model model transformator padat baru-baru ini telah berkembang dari 1,5B (GPT-2) menjadi 540B (PaLM), menunjukkan evolusi model-model ini dalam perjalanan yang belum pernah terjadi sebelumnya ke dalam ranah penguasaan linguistik.

Tantangan Pelatihan Model Besar

Meskipun potensi LLM tidak dapat disangkal, tantangan kritis muncul dari ukuran parameternya yang sangat besar yang membanjiri bahkan GPU paling kuat, yang saat ini mencapai puncaknya pada memori 80GB. Saat melakukan optimasi berbasis gradien turun stokastik, mereka harus lebih memadai untuk mengakomodasi parameter yang sangat besar ini dan status pengoptimal yang terkait.

Untuk meng-host model yang sangat besar seperti itu, seseorang dapat mengumpulkan memori perangkat dari beberapa GPU, dan dibutuhkan 32 GPU NVIDIA A100 untuk menyesuaikan model dengan 100 miliar parameter untuk fine-tuning. Namun, pendekatan ini menimbulkan biaya yang sangat mahal bagi sebagian besar peneliti akademis, yang selalu memiliki anggaran terbatas untuk banyak server GPU kelas atas.

Fuyou: Kerangka Pelatihan Berbiaya Rendah

Peneliti dari Universitas Zhejiang mengusulkan Fuyou. Kerangka pelatihan berbiaya rendah ini memungkinkan fine-tuning model besar 100B yang efisien pada server kelas bawah dengan GPU kelas bawah dan kapasitas memori CPU yang terbatas. Kerangka ini diimplementasikan pada PyTorch, yang merupakan kerangka pembelajaran mendalam yang populer.

Dibandingkan dengan model lain seperti ZeRO-Infinity, Fuyou dapat melakukan fine-tuning GPT-3 175B pada GPU konsumen RTX 4090 dengan utilisasi GPU yang tinggi, sementara ZeRO-Infinity gagal melakukan fine-tuning.

Inovasi Utama

Fokusnya terletak pada mengintegrasikan komunikasi SSD-CPU sebagai dimensi optimasi penting, secara strategis menyelaraskan komputasi dan pertukaran data untuk membuka potensi penuh utilisasi GPU. Upaya ini terungkap melalui tiga inovasi perintis:

  1. Pengoptimal CPU out-of-core sinkron yang tumpang tindih dengan propagasi mundur untuk memaksimalkan utilisasi GPU.
  2. Mekanisme pertukaran aktivasi saluran penuh GPU-CPU-SSD untuk memungkinkan fine-tuning model yang jauh lebih besar.
  3. Manajemen pertukaran aktivasi otomatis untuk secara otomatis menentukan jumlah optimal aktivasi pertukaran untuk meminimalkan waktu epoch.

Kinerja

Dalam ranah dinamis fine-tuning model, Fuyou muncul sebagai pembangkit tenaga listrik, memberikan kinerja luar biasa baik pada A100-80GB yang mutakhir maupun 4090 yang tangguh di server komoditas. Saat melakukan fine-tuning model GPT-3 175B, Fuyou mencapai 87 TFLOPS pada 4090 dan 172 TFLOPS pada A100-80GB. Selain itu, ia mencapai hingga 3,47×TFLOPS dibandingkan dengan ZeRO-Infinity ketika model GPT-3 13B disetel dengan baik.

Untuk memanfaatkan SSD murah dalam meningkatkan hasil pelatihan, efektivitas biaya Fuyou dengan Megatron-LM dibandingkan pada node DGX-2 menggunakan paralelisme tensor. Throughput dibandingkan dengan total harga GPU6 dan SSD di server di mana Fuyou mencapai efektivitas biaya paling banyak 1,70× dibandingkan Megatron-LM.

Kesimpulan

Makalah ini mengusulkan Fuyou, kerangka pelatihan berbiaya rendah yang memungkinkan fine-tuning model besar 100B yang efisien pada server kelas bawah dengan GPU kelas bawah dan kapasitas memori CPU yang terbatas. Kerangka ini diimplementasikan pada PyTorch. Kerangka ini mencapai 87 dan 172 TFLOPS saat melakukan fine-tuning GPT-3 175B. Selain itu, kerangka ini mencapai hingga 3,42× dan 6,73× TFLOPS dibandingkan dengan ZeRO-Infinity dan Colossal-AI saat melakukan fine-tuning GPT-3 13B. Selain itu, Fuyou mencapai efektivitas biaya paling banyak 1,70× dibandingkan Megatron-LM.