1、直观理解
attention 就是权重
其本质就是加权求和,解决对于context的理解
2、以此为基础的模型
transformer、bert、gpt
3、RNN
建立隐层之间时序关联:每一时刻的隐层状态St不仅取决于输入Xt,还包含上一时刻状态St-1
4、Encoder-Decoder
1. 两个RNN组合,先编码再解码
2. 缺点:不管输入多长,都先编码成一个长度相同的向量c,导致精度下降
5、正经理解
1. 不再是编码成一个向量C,而是每个时间生成不同的C,Ct = t时刻所有输入*t时刻所有输入对应的权重
2. 对于Ct而言,t时刻的输入权重即为attention(或者说Ct对于不同的输入,要给予不同的注意力)
3. attention权重矩阵可以通过训练得到
6、self-attention
1.attention摆脱输入序列长度限制,但RNN需要逐个看过句子单词才能给出输出,速度太慢
2.self-attention先提取每个单词的意义,然后根据生成顺序选取所需要的信息
通俗理解:人们对于一个人的印象,不仅取决于他/她今天的打扮(encoder编码了),还来自于人们对他/她之前的印象(已经翻译得到的)
7、三大优点
参数更少、速度更快、效果更好
8、联系
人类视觉也是一种attention机制,能将有限注意力放到重点信息上,节省资源,获得最有效的信息。