Transformer细节（八）——掩码的原理简述及代码实现

最新推荐文章于 2025-03-04 17:13:46 发布

多学学多写写

最新推荐文章于 2025-03-04 17:13:46 发布

阅读量2k

点赞数 11

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47129891/article/details/139884551

版权

一、为什么需要掩码

在 Transformer 模型的解码器中，使用掩码（mask）来计算注意力得分是为了确保自回归（autoregressive）生成过程中的因果性（causality）。具体来说，这种掩码称为“未来遮挡掩码”（future mask 或 look-ahead mask），它的目的是防止解码器在生成每个位置的输出时访问到该位置之后的目标序列信息，从而保证每个位置只能看到当前和之前的位置。

在自回归生成任务（如语言模型生成、机器翻译）中，解码器需要逐步生成输出序列的每一个元素。生成过程中的每一步都应该只依赖于之前生成的元素，而不能看见未来的元素。否则，模型会在训练时作弊，看到完整的序列，而在推理时却没有这种能力，导致不一致。

二、掩码的具体实现

掩码的具体实现是在计算自注意力得分时，将未来位置的注意力得分设置为负无穷大（或非常大的负值），从而在应用 softmax 函数时将这些位置的注意力权重置为零。

假设解码器的输入序列长度为 \( L \)，未来遮挡掩码是一个形状为 \( (L, L) \) 的矩阵，其中上三角部分（不包括对角线）被设置为负无穷大，对角线及下三角部分为零。

实现细节

1. 生成掩码矩阵：生成一个上三角矩阵，并将上三角部分设置为负无穷大。
2. 应用掩码：在计算注意力得分时，将掩码矩阵加到未归一化的注意力得分矩阵上。
3. 归

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。