bert原理篇

最新推荐文章于 2024-07-27 22:44:12 发布

iTensor

最新推荐文章于 2024-07-27 22:44:12 发布

阅读量1.2k

点赞数

分类专栏：自然语言处理深度学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wshixinshouaaa/article/details/100772261

版权

BERT是一种基于Transformers的双向预训练语言模型，通过无监督学习在大量语料上训练。模型分为BASE和LARGE两种配置，用于不同规模的任务。输入包括token、segmentation和position embeddings，预训练任务包括Masked LM和Next Sentence Prediction（NSP），前者预测被随机屏蔽的词，后者判断两个句子是否连续。

摘要由CSDN通过智能技术生成

文章目录

背景

正如论文名：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT 是一个语言模型，通过大量的语料进行无监督训练，这称为预训练 Pre-training。再使用预训练好的参数和词向量表示参与实际任务。

BERT 的全名是 Bidirectional Encoder Representations from Transformers 。

Bidirectional ：表示用的是双向语言模型，可以更好的融合上下文信息。

Transformers ：表示使用 Transformers 作为特征提取器。

模型结构

在这里插入图片描述

参数设置

BERT BASE (L=12, H=768, A=12, Total Param-eters=110M)

BERT LARGE (L=24, H=1024, A=16, Total Parameters=340M)

其中：L 为 Transformer 的层数，H 为隐层大小，A 为 Transformer 中 self-attention heads 的个数， feed-forward/filter 大小为 4H，比如 3072 for the H = 768 and 4096 for the H = 1024。

BERT BASE 的设置是为了和 GPT 作为

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

iTensor CSDN认证博客专家 CSDN认证企业博客

码龄8年

73: 原创

4万+: 周排名

228万+: 总排名

19万+: 访问

: 等级

2292: 积分

457: 粉丝

174: 获赞

93: 评论

907: 收藏

私信

关注

热门文章

分类专栏

最新评论

申请CloudFlare免费DNS服务
a648x: name写什么？value写什么？
使用python搭建简易区块链
Sillage777: @app.route('/chain', methods=['GET']) def full_chain(): response = { 'chain': blockchain.chain, 'length': len(blockchain.chain), } return jsonify(response), 200这一部分代码测试实现的时候会报错AttributeError: 'Blockchain' object has no attribute 'chain'，postman会显示500 Internal Server Error这是什么情况呢
Ubuntu挂载硬盘方法
Make it easy: 坑爹啊
详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型到 Attention模型
llj20d: 计算C1C2C31的示意图里，如果aij表示encoder i到decoder j，那图里第一行应该用a11，a21，a31吧？然后下一张图decoder的输入应该是C1C2C3而不都是C1吧？
十大排序算法（Java实现）
腊雪寒梅188: 堆排序存在问题

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。