AI Umum

革新 LLM 训练:GaLore 提升内存效率的新机器学习方法,不影响性能

背景

训练大型语言模型 (LLM) 由于其内存密集型特性而面临重大挑战。通过压缩模型权重来减少内存消耗的传统方法通常会导致性能下降。然而,加州理工学院、Meta AI、德克萨斯大学奥斯汀分校和卡内基梅隆大学的研究人员提出了一种新方法,即梯度低秩投影 (GaLore),提供了新的视角。

GaLore:一种新的方法

GaLore 专注于梯度而不是模型权重,这是一种独特的方法,有望提高内存效率而不影响模型性能。这种方法不同于传统方法,因为它关注梯度而不是模型权重。通过将梯度投影到低维空间中,GaLore 允许充分探索参数空间,有效地平衡内存效率和模型性能。该技术已显示出在 LLM 开发的预训练和微调阶段保持或超越全秩训练方法的性能。

核心创新

GaLore 的核心创新在于其对梯度投影的独特处理,它将优化器状态中的内存使用量减少了 65.5%,而不会牺牲训练效率。这是通过合并梯度的紧凑表示来实现的,它保持了训练动态的完整性并实现了内存消耗的大幅减少。因此,GaLore 促进了在标准消费级 GPU 上训练数十亿参数的模型,而这以前只能通过复杂的模型并行或大量的计算资源来实现。

适应性和性能

GaLore 的功效延伸到其与各种优化算法的适应性,使其成为现有训练管道的组成部分。它在不同基准的预训练和微调场景中的应用证明了 GaLore 能够以显着降低的内存需求提供有竞争力的结果。例如,GaLore 已使在消费级 GPU 上预训练多达 70 亿参数的模型成为可能,这是 LLM 训练的一个里程碑,突显了该方法改变模型开发格局的潜力。

评估和影响

对 GaLore 的全面评估突出了其优于其他低秩自适应方法的性能。当应用于大规模语言模型时,GaLore 节省了内存并实现了相当或更好的结果,突出了其作为训练策略的有效性。这种性能在既定的 NLP 基准上的预训练和微调中尤为明显,在这些基准中,GaLore 的内存高效方法不会影响结果的质量。

结论

GaLore 在 LLM 训练中取得了重大突破,为内存密集型模型开发的长期挑战提供了一个有力的解决方案。通过其创新的梯度投影技术,GaLore 展示了出色的内存效率,同时保持甚至在某些情况下提高了模型性能。它与各种优化算法的兼容性进一步巩固了其作为研究人员和从业者的多功能且有影响力的工具的地位。GaLore 的出现标志着 LLM 训练民主化的关键时刻,有可能加速自然语言处理和相关领域的进步。