Bert中的两处mask

前行的zhu

已于 2024-06-19 14:56:49 修改

阅读量70

点赞数 2

文章标签：自然语言处理人工智能深度学习

于 2024-06-19 14:56:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44305115/article/details/139803015

版权

Bert中的两处mask

bert模型在训练过程中的第一处mask是我们都知道的随机mask掉15%的token。在讲第二处mask之前，我们先了解一下bert模型在训练时的处理，也就是先获取同一个批次中的最长句子作为最大句子长度，对于其它句子则需要进行填充达到最大句子长度，一般是使用[UNK]符号进行填充，而在计算attention的时候，需要将这些填充符号mask掉，这便是bert模型在训练过程中的第二处mask。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bert中的两处mask

bert模型在训练过程中的第一处mask是我们都知道的随机mask掉15%的token。在讲第二处mask之前，我们先了解一下bert模型在训练时的处理，也就是先获取同一个批次中的最长句子作为最大句子长度，对于其它句子则需要进行填充达到最大句子长度，一般是使用[UNK]符号进行填充，而在计算attention的时候，需要将这些填充符号mask掉，这便是bert模型在训练过程中的第二处mask。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。