📖标题:Rethinking Conventional Wisdom in Machine Learning: From Generalization to Scaling
🌐来源:arXiv, 2409.15156
摘要
🔸大型语言预训练的显著成功和标度律的发现标志着机器学习的范式转变。值得注意的是,主要目标已经从最小化泛化误差演变为减少近似误差,最有效的策略已经从正则化(广义上)过渡到扩大模型。这就提出了一个关键问题:在以泛化为中心的时代被证明是成功的既定原则在这个新的扩展时代仍然有效吗?
🔸本文研究了几个有影响力的基于正则化的原则,这些原则在以缩放为中心的大型语言模型(LLM)时代可能不再适用。这些原则包括通过小批量和大学习率进行显式L2正则化和隐式正则化。此外,我们发现了一种称为“比例律交叉”的新现象,即两条比例曲线在一定比例上相交,这意味着在较小比例下有效的方法可能无法推广到较大的方法。
🔸这些观察结果共同突显了这一新范式中的两个基本问题:1.缩放的指导原则:如果正则化不再是模型设计的主要指导原则,那么正在出现哪些新原则来指导缩放?2.规模上的模型比较:如何在只有一个实验可行的规模上可靠有效地比较模型?
🛎️文章简介
🔸研究问题:大语言模型(LLM)时代,从以泛化为中心的范式转向以扩展为中心的范式时,传统泛化方法(如正则化)是否仍然适用?
🔸主要贡献:论文通过实验和理论分析,揭示了在LLM预训练中,正则化可能不再是提升性能的主要手段,并提出了新的扩展范式下的指导原则。
📝重点思路
🔺相关工作
🔸机器学习目标:通过理解数据的底层结构,学习能够对看不见的数据进行预测的函数,以最小化未见数据上的测试损失,测试误差可以分解为泛化差距和训练误差之和。
🔸以泛化为中心:数据规模相对较小,该范式进一步分为①“经典偏差-方差权衡”,泛化差距和近似误差都是不可忽略 ②“过参数化”,模型规模远超数据规模,近似误差可以忽略。
🔸以规模化为中心:超大的数据规模和模型规模,且数据规模远超模型规模,泛化差距可以忽略不计。
🔺论文方案
🔸实验设计:通过对比实验,分别在图像分类任务和语言模型预训练任务中,测试了不同正则化技术(如L2正则化、小批量大小等)的效果。
🔸理论分析:在扩展范式下,模型复杂度、数据复杂度和计算资源之间的关系,探讨了传统正则化方法在扩展范式下的适用性。
🔸现象观察:观察并描述了“扩展法则交叉”现象,即在小规模下有效的技术在大规模下可能失效。
🔸模型比较:探讨了在扩展范式下,如何有效比较不同模型的性能,提出了扩展法则外推法作为模型比较的新方法。
🔎分析总结
🔸正则化的效果:在图像分类任务中,L2正则化显著提高了测试准确率,但在语言模型预训练中,L2正则化和权重衰减的效果不明显。
🔸小批量大小的影响:在语言模型预训练中,小批量大小并不总是表现更好,实验结果显示,过小或过大的批量大小都会影响模型性能。
🔸扩展法则交叉:某些在小规模下有效的技术(如梯度归一化)在大规模下可能失效,这种现象被称为“扩展法则交叉”。
🔸模型比较的挑战:在扩展范式下,传统的验证集方法不再适用,因为大规模数据和计算资源的限制使得训练多个模型进行比较变得困难。
💡个人观点
论文的核心是在大模型时代缩放定律下,发现正则化可能不再适用,特别是小规模和大规模的结论不一致。
附录