transformer

weixin_51793354

于 2024-04-02 18:06:25 发布

阅读量288

点赞数 5

分类专栏： deep_learning 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51793354/article/details/137279821

版权

deep_learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

transformer 结构
transformer的掩码
transformer中dropout出现的地方
transformer中layer_norm出现的地方
torch.nn.Transformer的mask使用
句子的处理流程

transformer 结构

在这里插入图片描述

transformer的掩码

注意力方式	掩码
自注意力	src_mask = src_att_mask + src_pad_mask
自注意力	tgt_mask = tgt_att_mask + tgt_pad_mask
交叉注意力	mem_mask = mem_att_mask + mem_pad_mask

掩码类型	作用
*_pad_mask	为了让当前单词不注意到填充的单词. 一般为不规则锯齿形
*_att_mask	为了让当前单词不注意到它“不该”注意到的单词。例如tgt_att_mask为上三角矩阵

掩码类型	初始形状	拓展后的形状
src_mask	(batch_size, src_len)	(batch_size, head, src_len, src_len)
tgt_mask	(batch_size, tgt_len)	(batch_size, head, tgt_len, tgt_len)
mem_mask	(batch_size, src_len)	(batch_size, head, tgt_len, src_len)

transformer中dropout出现的地方

位置嵌入之后。
注意力softmax之后。
多头注意力之后的线性变换后。
feed_forward 第二个线性层之后。

transformer中layer_norm出现的地方

残差块之前（或之后）
（最后一个Decoder之后）

torch.nn.Transformer的mask使用

Binary and float masks are supported. For a binary mask, a True value indicates that the corresponding position is not allowed to attend. For a float mask, the mask values will be added to the attention weight.
If both attn_mask and key_padding_mask are supplied, their types should match.

句子的处理流程

在这里插入图片描述

weixin_51793354

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
transformer

transformer
复制链接

扫一扫

专栏目录

weixin_51793354 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

22万+: 周排名

7万+: 总排名

7676: 访问

: 等级

248: 积分

46: 粉丝

64: 获赞

7: 评论

68: 收藏

私信

关注

热门文章

分类专栏

deep_learning 2篇
archlinux 4篇
vscode 2篇

最新评论

transformer
CSDN-Ada助手: 恭喜您发布了第11篇博客《transformer》！持续创作是非常不易的，您的坚持和努力可嘉。希望您能继续保持创作的热情，探索更多有趣的主题，或许可以尝试深入探讨transformer技术的应用场景或者与其他技术的结合，这样可以为读者带来更多的启发和思考。期待您的下一篇作品！
nvidia-driver+cuda+pytorch安装
CSDN-Ada助手: 恭喜您发布了第10篇博客！看来您对nvidia-driver、cuda和pytorch的安装经验丰富啊！不过我想提个建议，或许您可以尝试分享一些实际应用场景下的使用案例，或者深入探讨一些高级技巧，这样能够让读者更加深入地了解这些工具的使用方法。希望您继续保持创作热情，期待您的下一篇精彩博文！
linux切换内核
CSDN-Ada助手: 恭喜您在博客上发布了第9篇文章“linux切换内核”，不断分享自己的经验和知识，值得称赞！希望您能继续保持写作的热情和动力，让更多的读者受益。或许下一步可以分享一些关于Linux系统优化或者网络安全方面的内容，以丰富读者的知识领域。期待您的更多精彩作品！
vscode+latex(texlive)
CSDN-Ada助手: 恭喜你写了第8篇博客！使用vscode和latex(texlive)进行创作是一个很棒的选择，能够让你更专注于内容的创作和排版。接下来，我建议你可以尝试增加一些图文并茂的内容，或者深入探讨一些技术细节，让读者能够更深入地了解你的创作过程。当然，这只是我的一些谦虚建议，期待看到你更多精彩的作品！
archlinux KDE没声音no output or input device found
CSDN-Ada助手: 恭喜您写了第8篇博客！标题很有吸引力，我相信这篇博客一定能帮到很多遇到相同问题的人。看到您遇到的声音问题，我不禁想起自己曾经遇到过类似的困扰。或许在下一篇博客中，您可以分享一些解决这个问题的方法和经验，这样就能帮助更多人了。希望您能继续保持创作的热情，期待您的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。