Bert模型浅析

最新推荐文章于 2024-05-24 17:52:00 发布

喂鱼W_y

最新推荐文章于 2024-05-24 17:52:00 发布

阅读量5.8k

点赞数 2

分类专栏：机器学习文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyisfish/article/details/85800719

版权

本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识，网上很多关于bert的解读，翻来覆去都是那些论文里的翻译之类的，十个人有九个相同的东西。本文简单的摘录了一些大佬之言，仅供参考。

1、Bert简介

先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知，图像领域的imagenet预训练对于图像处理有着相当大的意义，namenlp领域是否也存在这样的一个通用模型呢？
从word2vec开始，大佬们就开始不断地拓展新的模型。word2vec相应熟悉nlp领域的人都十分清晰它的好处，用它做词嵌入可以做出比较好的文本表征。它算是神经语言模型的一种变种，也是基于句子连个词前后的关系来捕捉句子里的特征。但是它的缺点很明显，对于同义词无能为力。
接下里，带大家认识一下transformer这个网路结构，它算是2017年nlp领域一个比较大的突破，摒弃了rnn这种序列结构，直接用上了attention机制来做，在神经翻译领域取得了很大的成就。
另外，Emlo这个模型使用了两层双向lstm模型来做词表征，词嵌入不再是固定的向量，而是会根据上下文信息进行辩护啊，这样就可以解决了同义词的问题。但是从后期的一些模型出现表现来看这样的双向lstm表征能力不足。
GPT使用的是trandformer结构来做单向的下个词汇预测的一个预训练模型，而bert在此基础上介入了双向，而且预训练任务修改成了完形填空与上下句判断两个任务。这个下面会详细聊一下。
在这里插入图片描述
我们可以看一下bert模型的而一些数据，一句话概括“

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Bert模型浅析

本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识，网上很多关于bert的解读，翻来覆去都是那些论文里的翻译之类的，十个人有九个相同的东西。本文简单的摘录了一些大佬之言，仅供参考。1、Bert简介先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知，图像领域的imagenet预训练对于图像处理有着相当大的意义，namenlp领域是否也存在这样的一个通用模型呢？从word2...
复制链接

扫一扫

专栏目录

喂鱼W_y CSDN认证博客专家 CSDN认证企业博客

码龄8年

34: 原创

73万+: 周排名

124万+: 总排名

23万+: 访问

: 等级

2402: 积分

114: 粉丝

125: 获赞

20: 评论

830: 收藏

私信

关注

热门文章

分类专栏

python 28篇
机器学习 23篇
算法 14篇
日记 7篇
深度学习 10篇
数据库 2篇
爬虫 9篇
自然语言处理 1篇
统计学 1篇
广告推荐 2篇
c++
项目实践
tensorflow 4篇
scala 2篇
spark 2篇
LR 1篇
数据流 1篇

最新评论

python中的zip()函数详解
最后的老实人_: 【*zip()函数是zip()函数的逆过程】大哥你这个搞笑呢么？不应该是 zip 和 zip(*) ？不然你那逻辑都不对
41个机器学习面试题
Chealemon: variable不是变量么，bias好像是超参数偏置来着
python中的zip()函数详解
现在是幻想时刻: ...看完了发现你这句话了
机器学习之优化算法(从SGD到Adam)
GKatHere: 4、AdaGrad “AdaGrad算法的做法是：缩放每个参数反比于其所有梯度历史平方值总和的平方根。” 如果将上值看作方差，也就是方差大的话，降低学习率，使其收敛。
深度学习模型汇总(one)
Tisfy: 看完之后，我激动的心情久久不能平复

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。