新加坡国立大学最新优化器已投入使用

Time:2023-07-11

摘要

优化器在大语言模型的训练中占据了大量内存资源。现在有一种新的优化方式，在性能保持不变的情况下将内存消耗降低了一半。该成果由新加坡国立大学打造，在ACL会议上获得了杰出论文奖，并已经投入了实际应用。随着大语言模型不断增加的参数量，训练时的内存消耗问题更为严峻。研究团队提出了CAME优化器，在减少内存消耗的同时，拥有与Adam相同的性能。 CAME优化器在多个常用的大规模语言模型的预训练上取得了相同甚至超越Adam优化器的训练表现，并对大batch预训练场景显示出更强的鲁棒性。

　　优化器在大语言模型的训练中占据了大量内存资源。

　　现在有一种新的优化方式，在性能保持不变的情况下将内存消耗降低了一半。

　　该成果由新加坡国立大学打造，在ACL会议上获得了杰出论文奖，并已经投入了实际应用。

　　随着大语言模型不断增加的参数量，训练时的内存消耗问题更为严峻。

　　研究团队提出了CAME优化器，在减少内存消耗的同时，拥有与Adam相同的性能。

　　CAME优化器在多个常用的大规模语言模型的预训练上取得了相同甚至超越Adam优化器的训练表现，并对大batch预训练场景显示出更强的鲁棒性。

　　进一步地，通过CAME优化器训练大语言模型，能够大幅度降低大模型训练的成本。

　　实现方法

　　CAME优化器基于Adafactor优化器改进而来，后者在大规模语言模型的预训练任务中往往带来训练性能的损失。

　　Adafactor中的非负矩阵分解操作在深度神经网络的训练中不可避免地会产生错误，对这些错误的修正就是性能损失的来源。

　　而通过对比发现，当起始数值mt和当前数值t相差较小时，mt的置信度更高。

　　受这一点启发，团队提出了一种新的优化算法。