BERT的理解

小杨算法屋

已于 2022-02-11 12:51:27 修改

阅读量7.1w

点赞数 23

分类专栏： BERT 文章标签： BERT NLP

于 2018-11-20 09:43:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangfengling1023/article/details/84025313

版权

本文介绍了BERT模型，重点讲述了预训练任务，包括Masked LM和Next Sentence Prediction，以及BERT如何应用于NLP的四大类任务。BERT利用Transformer的双向信息处理，刷新了许多NLP任务的性能。

摘要由CSDN通过智能技术生成

最近BERT大火，所以最近也开始研究这个模型，将自己的简单认识记录了下来

从模型的创新角度看一般，创新不大，但是实验的效果太好了，基本刷新了很多NLP的任务的最好性能，另外一点是BERT具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。

与最近的语言表征模型不同，BERT基于所有层中的左、右语境进行联合调整，来预训练深层双向表征。只需要增加一个输出层，就可以对预训练的BERT表征进行微调，就能够为更多的任务创建当前的最优模型

1、预训练模型

BERT是一个预训练的模型，那么什么是预训练呢？举例子进行简单的介绍
假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“fine-tuning”，即更好地把参数进行调整使得更适合当前的B任务

优点：当任务B的训练数据较少时，很难很好的训练网络，但是获得了A训练的参数，会比仅仅使用B训练的参数更优

Task #1: Masked LM

为了训练双向特征，这里采用了Masked Language Model的预训练方法，随机mask句子中的部分token，然后训练模型来预测被去掉的token。

具体操作是：

随机mask语料中15%的token，然后将masked t

最低0.47元/天解锁文章

小杨算法屋

关注

23
点赞
踩
157

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小杨算法屋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。