BERT参数量计算

本文详细解析了BERT模型的参数量计算方法,通过分解输入嵌入、多头注意力、前馈网络及归一化等模块,展示了如何计算得到BERT(base)模型的参数总量约为110M。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

BERT参数量计算

目前,预训练模型在NLP领域占据核心地位。预训练模型的参数量是庞大的,例如BERT(base)的参数量是110M,BERT(large)的参数量是330M。为了深入认识,我决定思考一下BERT参数量是如何计算的。

首先我们知道,BERT是基于transformer结构的预训练模型。在BERT论文中提到了有关BERT的信息:

Parameters in BERT(base)Number
word list30522
layer12
hidden size768
max length512
multi head attention12
inner size3702

BERT主要分为四部分:

Sum/110M
input embedding 768 ∗ ( 30522 + 512 + 2 ) 768*(30522+512+2) 768(30522+512+2) 23835648 23835648 23835648
multi head attention 12 ∗ 768 ∗ ( 768 ∗ 3 + 768 ) 12*768*(768*3+768) 12768(7683+768) 28311552 28311552 28311552
feed forward network 12 ∗ ( 768 ∗ 3072 ∗ 2 + 768 + 3072 ) 12*(768*3072*2+768+3072) 12(76830722+768+3072) 56669184 56669184 56669184
normalization 768 ∗ 2 + 768 ∗ 2 ∗ 2 ∗ 12 768*2+768*2*2*12 7682+7682212 38400 38400 38400

那这样加起来的结果就是108854784,约等于110M。
有关具体运算的细节我之后再补充,按照transformer的decoder计算即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值