大语言模型——语言模型的发展历程
大语言模型获得成功的关键在于对“规模扩展”(Scaling)的充分探索与利用。在实现上,大语言模型采用了与小型预训练语言模型相似的神经网络结构(基于注意力机制的 Transformer 架构)和预训练方法(如语言建模)。但是通过扩展参数规模、数据规模和计算算力,大语言模型的能力显著超越了小型语言模型的能力。有趣的是,这种通过扩展所带来的性能提升通常显著高于通过改进架构、算法等方面所带来的改进。因此,建立定量的建模方法,即扩展法则(Scaling Law),来研究规模扩展所带来的模型性能提升具有重要的实践指导意义。在本部分,将首先介绍两种常见的语言模型扩展法则的定义,并且进一步对于扩展法则进行深入讨论。
KM 扩展法则
2020年,Kaplan 等人(OpenAI 团队)首次建立了神经语言模型性能与三个主要因素——模型规模(𝑁)、数据规模(𝐷)和计算算力(𝐶)之间的幂律关系(Power-Law Relationship)。由于原始论文中没有给出具体的扩展法则命名,本部分内容中使用两位共同第一作者姓氏的首字母来进行命名。在给定算力预算 𝑐 的条件下,可以近似得到以下三个基本指数公式来描述扩展法则:
这里,𝐿(·) 表示用以 nat为单位的交叉熵损失。其中,𝑁𝑐、𝐷&