BERT中的MLM和NSP

失眠的树亚

于 2023-06-05 10:56:56 发布

阅读量1.6k

点赞数

分类专栏：知识补充|笔记文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44021274/article/details/131043815

版权

知识补充|笔记专栏收录该内容

10 篇文章

订阅专栏

BERT模型通过两个无监督任务——MaskedLanguageModeling(MLM)和NextSentencePrediction(NSP)进行参数预训练。MLM随机选择15%的token，用[MASK]替换并预测其原词，而NSP则训练模型理解句子间的关联性，判断两个句子是否连续。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MLM和NSP

BERT采用两个无监督任务进行参数预训练，MLM和NSP。

利用Mask LM和NSP这两个任务来训练BERT模型，也就是BERT的预训练过程包括两个任务：NSP和MLM。

MLM：

**内容：**在一个句子中，随机选中一定百分比（实际是15%）的token，将这些token用"[MASK]“替换。然后用分类模型预测”[MASK]"实际上是什么词；

**改进：**在被选中的15%的token中，有80%被替换为"[MASK]"，有10%被替换为一个随机token，有10%保持不变。

举例：

原始句子为：my dog is hairy；

假设随机mask的过程中，第4个token "hairy"被选中，则对"hairy"的处理有3中可能的情况：

①、80%的情况下将"hairy"替换为"[MASK]"，即 my dog is hairy -> my dog is [MASK]；

②、10%的情况下将"hairy"替换为一个随机词，例如my dog is hairy -> my dog is apple；

③、10%的情况下，保持"hairy"不变，即my dog is hairy -> my dog is hairy；

NSP：

**内容：**为了训练一个理解句子关系的模型，作者提出了Next Sentence Prediction（NSP）任务。即每个样本都是由A和B两句话构成，分为两种情况：①、句子B确实是句子A的下一句话，样本标签为IsNext；②、句子B不是句子A的下一句，句子B为语料中的其他随机句子，样本标签为NotNext。在样本集合中，两种情况的样本占比均为50%。

举例：

一个样本的两个句子用[SEP]隔开，第一个句子的句首加上[CLS]，第二个句子的句尾加上[SEP]。

样本一：[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]，

标签：IsNext。

样本二：[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]，

标签：NotNext。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

失眠的树亚 你的鼓励是我最大的创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。