1.疑问:attention是着重注意某些上一层传入的内容,为什么不能直接就在全连接层加大权重?
因为全连接层训练出来的权重是不会改变顺序的,输入ABC,如果A比较重要那么A的权重就更大,但是如果下一次输入的是CBA就会注意力变错。attention不是生成一个固定权重,而是生成一个与位置无关的权重函数。解决了权值固定的问题。
attention:求相关性,进行矩阵运算,计算第一个和哪一个更加相关
RNN和self-attention:
1.虽然都可以考虑上下文信息,但是如果RNN最右端的输出想要获得最左端的数据就要一直进行记忆,但是attention就可以综合全局。
2.attention效率更高,RNN需要等上一个计算完才能进行下一个,但是attention可以进行并行处理。
transformer:
seq2seq for object detection 2005
每一个encoder有很多block,每一个block内部结构运用attention ,transformer中的更加复杂
引入残差。