【深度学习九】transformer

最新推荐文章于 2024-06-27 10:11:50 发布

cv_我emo了

最新推荐文章于 2024-06-27 10:11:50 发布

阅读量418

点赞数 1

分类专栏：深度学习文章标签： transformer 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45140119/article/details/120418075

版权

本文深入探讨了Transformer的结构，包括encoder-decoder架构，重点解析了encoder中的输入部分、注意力机制以及前馈神经网络。在注意力机制中，详细阐述了基本注意力机制、多头注意力以及残差连接和层归一化的作用。decoder部分则介绍了masked multi-head attention以防止信息泄露，并解释了encoder与decoder如何交互完成序列生成任务。

摘要由CSDN通过智能技术生成

1 transformer的encoder-decoder结构：

结构内部：

2 encoder：

2.1 输入部分

embedding和postitional encoding（位置编码）

为什么需要位置编码：如RNN每一time steps共享一套参数，串行输入输出，而transformer采用可以并行出入几个单词或者一串句子，优点是处理效率高，缺点是无法表示时序关系，所以要对输入的embedding加上postitional encoding。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【深度学习九】transformer

1transformer的encoder-decoder结构：结构内部：2encoder：2.1 输入部分embedding和postitional encoding（位置编码）为什么需要位置编码：如RNN每一time steps共享一套参数，串行输入输出，而transformer采用可以并行出入几个单词或者一串句子，优点是处理效率高，缺点是无法表示时序关系，所以要对输入的embedding加上postitional encoding。最终输入的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。