self-attention和transformer

本文探讨了注意力机制在深度学习中的作用,解释了为何不能简单通过全连接层加大权重来实现。注意力机制解决了RNN在处理序列数据时的记忆问题,允许更有效地考虑全局上下文,并能进行并行计算,提高了效率。Transformer作为其应用实例,使用多个注意力模块,引入残差连接,优化了seq2seq模型在对象检测等任务中的表现。
摘要由CSDN通过智能技术生成

1.疑问:attention是着重注意某些上一层传入的内容,为什么不能直接就在全连接层加大权重?

因为全连接层训练出来的权重是不会改变顺序的,输入ABC,如果A比较重要那么A的权重就更大,但是如果下一次输入的是CBA就会注意力变错。attention不是生成一个固定权重,而是生成一个与位置无关的权重函数。解决了权值固定的问题。

attention:求相关性,进行矩阵运算,计算第一个和哪一个更加相关

RNN和self-attention:

1.虽然都可以考虑上下文信息,但是如果RNN最右端的输出想要获得最左端的数据就要一直进行记忆,但是attention就可以综合全局。

2.attention效率更高,RNN需要等上一个计算完才能进行下一个,但是attention可以进行并行处理。

transformer:

seq2seq for object detection  2005

 

每一个encoder有很多block,每一个block内部结构运用attention ,transformer中的更加复杂

 引入残差。

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值