大语言模型——扩展法则

大语言模型的成功关键在于规模扩展,尤其是参数、数据和计算资源的扩大。KM扩展法则和Chinchilla扩展法则揭示了模型性能与这三个因素的幂律关系。KM法则倾向于增加模型规模,而Chinchilla法则主张数据规模与模型规模等比例增加。扩展法则不仅用于预估模型性能,还可指导训练策略,但面对有限数据,如何有效扩展成为挑战。
摘要由CSDN通过智能技术生成

大语言模型——语言模型的发展历程

大语言模型获得成功的关键在于对“规模扩展”(Scaling)的充分探索与利用。在实现上,大语言模型采用了与小型预训练语言模型相似的神经网络结构(基于注意力机制的 Transformer 架构)和预训练方法(如语言建模)。但是通过扩展参数规模、数据规模和计算算力,大语言模型的能力显著超越了小型语言模型的能力。有趣的是,这种通过扩展所带来的性能提升通常显著高于通过改进架构、算法等方面所带来的改进。因此,建立定量的建模方法,即扩展法则(Scaling Law),来研究规模扩展所带来的模型性能提升具有重要的实践指导意义。在本部分,将首先介绍两种常见的语言模型扩展法则的定义,并且进一步对于扩展法则进行深入讨论。

KM 扩展法则

2020年,Kaplan 等人(OpenAI 团队)首次建立了神经语言模型性能与三个主要因素——模型规模(𝑁)、数据规模(𝐷)和计算算力(𝐶)之间的幂律关系(Power-Law Relationship)。由于原始论文中没有给出具体的扩展法则命名,本部分内容中使用两位共同第一作者姓氏的首字母来进行命名。在给定算力预算 𝑐 的条件下,可以近似得到以下三个基本指数公式来描述扩展法则:
在这里插入图片描述
这里,𝐿(·) 表示用以 nat为单位的交叉熵损失。其中,𝑁𝑐、ǔ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值