self-attention和transformer

最新推荐文章于 2024-04-28 11:31:32 发布

十二壳

最新推荐文章于 2024-04-28 11:31:32 发布

阅读量125

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45436729/article/details/120911997

版权

本文探讨了注意力机制在深度学习中的作用，解释了为何不能简单通过全连接层加大权重来实现。注意力机制解决了RNN在处理序列数据时的记忆问题，允许更有效地考虑全局上下文，并能进行并行计算，提高了效率。Transformer作为其应用实例，使用多个注意力模块，引入残差连接，优化了seq2seq模型在对象检测等任务中的表现。

摘要由CSDN通过智能技术生成

1.疑问：attention是着重注意某些上一层传入的内容，为什么不能直接就在全连接层加大权重？

因为全连接层训练出来的权重是不会改变顺序的，输入ABC，如果A比较重要那么A的权重就更大，但是如果下一次输入的是CBA就会注意力变错。attention不是生成一个固定权重，而是生成一个与位置无关的权重函数。解决了权值固定的问题。

attention：求相关性，进行矩阵运算，计算第一个和哪一个更加相关

RNN和self-attention：

1.虽然都可以考虑上下文信息，但是如果RNN最右端的输出想要获得最左端的数据就要一直进行记忆，但是attention就可以综合全局。

2.attention效率更高，RNN需要等上一个计算完才能进行下一个，但是attention可以进行并行处理。

transformer：

seq2seq for object detection 2005

每一个encoder有很多block，每一个block内部结构运用attention ，transformer中的更加复杂

引入残差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
self-attention和transformer

1.疑问：attention是着重注意某些上一层传入的内容，为什么不能直接就在全连接层加大权重？因为全连接层训练出来的权重是不会改变顺序的，输入ABC，如果A比较重要那么A的权重就更大，但是如果下一次输入的是CBA就会注意力变错。attention不是生成一个固定权重，而是生成一个与位置无关的权重函数。解决了权值固定的问题。attention：求相关性，进行矩阵运算，计算第一个和哪一个更加相关RNN和self-attention：1.虽然都可以考虑上下文信息，但是如果RNN最右端的输
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。