BERT参数量计算

最新推荐文章于 2025-02-11 21:24:07 发布

alkaid_sjtu

最新推荐文章于 2025-02-11 21:24:07 发布

阅读量3.2k

点赞数 1

文章标签： bert transformer 自然语言处理

本文链接：https://blog.csdn.net/weixin_44047857/article/details/122073317

版权

本文详细解析了BERT模型的参数量计算方法，通过分解输入嵌入、多头注意力、前馈网络及归一化等模块，展示了如何计算得到BERT(base)模型的参数总量约为110M。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BERT参数量计算

目前，预训练模型在NLP领域占据核心地位。预训练模型的参数量是庞大的，例如BERT(base)的参数量是110M，BERT(large)的参数量是330M。为了深入认识，我决定思考一下BERT参数量是如何计算的。

首先我们知道，BERT是基于transformer结构的预训练模型。在BERT论文中提到了有关BERT的信息：

Parameters in BERT（base）	Number
word list	30522
layer	12
hidden size	768
max length	512
multi head attention	12
inner size	3702

BERT主要分为四部分：

Sum	/	110M
input embedding	$768 * (30522 + 512 + 2)$	$23835648$
multi head attention	$12 * 768 * (768 * 3 + 768)$	$28311552$
feed forward network	$12 * (768 * 3072 * 2 + 768 + 3072)$	$56669184$
normalization	$768 * 2 + 768 * 2 * 2 * 12$	$38400$

那这样加起来的结果就是108854784，约等于110M。
有关具体运算的细节我之后再补充，按照transformer的decoder计算即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

alkaid_sjtu

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

在参数量近似的情况下，Bert和GPT架构模型的计算量比较

步子哥的博客

07-16

106

在比较 BERT 架构和 GPT 架构的计算量时，需要考虑它们的架构设计和使用场景。尽管两者的参数量相同，但由于其不同的工作机制，计算量可能会有所不同。

神经网络-RoBERTa

Mrrunsen的博客

08-09

2639

为了避免在每轮训练中每个训练实例都使用相同的mask，训练数据被复制了10倍，这样在每个40个训练周期的训练中，每个序列都以10种不同的方式被masked。然而，当建模大量多样化的语料库时，如本工作中考虑的语料库，Unicode字符可以占据这个词汇量的一个相当大的部分。遵循Radford等人（2019）的方法，我们考虑使用一个更大的字节级BPE词汇表来训练BERT，该词汇表包含50K子词单位，而无需对输入进行额外的预处理或分词。这些子词不是预先定义的单词，而是通过分析训练语料库中的统计数据自动提取的。

参与评论您还未登录，请先登录后发表或查看评论

BERT参数计算

dataastron的博客

07-25

1389

参考 https://zhuanlan.zhihu.com/p/144582114小白本文计算针对英文版本bert base bert base 12层 768隐藏单元 12个head 共110M vocab_size=30522， hidden_size=768， max_position_embeddings=512， token_type_embeddings=2 第 1 部分：输入 Token Embeddings：总词汇是30522每个输出维度都是768，参数量是30522*768 Posit

self-attention与Bert

最新发布

m0_71521384的博客

02-11

1356

BERT 模型的参数数量取决于其架构设计（如层数、隐藏层大小、注意力头数等）。以下是计算 BERT 参数数量的详细方法，以及如何通过代码查看 BERT 模型的参数。每层有两个 Layer Normalization（自注意力层和 FFN 层各一个）。bert-base-chinese 的config.json文件中定义）2（句子 A 和句子 B） × 隐藏层大小（其中:Mask用来控制输入的长度。输入长度要保持一致：所以需要分词。（注：vocab_size，） × 隐藏层大小（） × 隐藏层大小（

BERT模型参数量计算

vivi_cin的博客

05-11

1358

token embedding参数：30522（词汇量）* 768（隐藏层大小）position embedding参数：512（文本输入最长大小）* 768（隐藏层大小）segment embedding参数：2（0和1区分上下句）* 768（隐藏层大小）故，词向量总参数量 = （30522 + 512 + 2）* 768 = 22.7 MBQ K V 权重矩阵尺寸：768 * 64（多头注意力机制下）O 的权重矩阵：768 * 768。

如何计算Bert模型的参数量

机器学习，深度学习

08-18

8534

如何计算Bert模型的参数量

12层的bert参数量_Bert: 双向预训练+微调

weixin_39555951的博客

11-12

856

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。以下是要写的文章，文章大部分都发布在公众号【雨石记】上，欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩 Bert与模型蒸馏：PKD和DistillBert...

12层的bert参数量_BERT模型到底有多少参数

weixin_39970668的博客

11-21

1743

在知乎回答问题有一个好处，就是不用太注意设置格式，也能整体表现的不错！赞一个！最近做模型的时候，好奇心驱使，查看了一下BERT模型的参数量一共是多少，这里用的是“chinese-bert-wwm-ext”，和bert-base结构一样。模型的结构和细节代码就不详述了，因为很多人都看过，分析过！第一，如何查看model结构加载完模型后，输入model，或者print(model）就可以查看模型的结构...

Bert_base参数计算

bingmeishi的博客

08-27

1911

变量设定设定如下变量： V – 词汇表大小 E – Embedding维度 P – 位置编码最大长度 H – Hidden维度 I – Intermediate维度各模块参数 BertEmbeddings 模块参数 word_embeddings V*E position_embeddings P*E token_type_embeddings 2*E LayerNorm E+E 所以，总的参数量为: V*E + P*E + 2*E + E + E = (V+P+

大模型/NLP/算法4——bert参数量计算

AndrewPerfect的博客

07-09

1209

BERT的总参数量可以大致通过加总上述各个组件的参数量来估算。但请注意，具体的参数量还会受到模型配置（如隐藏层大小。

NLP Bert-base” 模型参数量计算

强化学习曾小健

08-21

1418

Bert 的模型由多层双向的Transformer编码器组成，由12层组成768隐藏单元，12个head，总参数量110M，约1.15亿参数量。

（5）一文懂“NLP Bert-base” 模型参数量计算

良师，益友

08-12

1万+

Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。

[NLP] BERT模型参数量

摩登都市天空---专栏

08-20

1347

综上，BERT模型的参数总量为：

bert参数数量_BERT模型到底有多少参数

weixin_39857174的博客

02-06

2119

bert模型的参数量和时间复杂度分析

羊城迷鹿的博客

08-02

2606

这里主要比较了bert-base和albert-tiny。前者窄而深，后者宽而浅。需要注意的一点是，albert是对bert瘦了身，但只省了空间，没有省时间。因为虽然不同层共享了参数，但模型还是要经过这么多层算一遍。假设词表大小为V，句子长度为S，词向量维度为H，层数为L，自注意力头数为A，对于ALBert，其嵌入分解维度为E。模型的下游任务为多分类，标签数为K。............

Bert/Transformer模型的参数大小计算