self attention
在听了李宏毅老师关于self attention的讲解后我觉得讲的非常好😉,下面是我在听完课之后做的一些学习记录,主要的参考是李宏毅老师的网课和课件(文末给出)。
self attention在NLP和很多其它领域都有着广泛的应用,以词性标注为例。
I saw a saw
这里的第一个"saw"是动词,第二个“saw”是名词(锯子),对于词性标注而言,模型的输入和输出的数量是相同的
我们先考虑最简单的情况
假设我们将这些词单独输入到一个全连接层,再输出,那么明显我们没有考虑到词与词之间的关系,训练出来的模型效果不会很好。一个比较自然的想法是在对每一个词进行词性标注的时候都要考虑其它词的影响。那么怎样判断其它的词的重要性呢?这个问题就可以使用self attention机制来解决。
我们需要找出和当前词汇相关的向量,同时我们需要衡量向量之间的相关度,在这里我们用 α \alpha α(attention score)来衡量向量之间的相关度,相关度的计算方法有很多种,比较常见的有dot production 和additive.
假设原本的向量为
a
i
a_i
ai那么
q
i
q_i
qi 和
k
i
k_i
ki则是由
q
i
=
W
q
a
i
q_i = W^q a_i
qi=Wqai和
k
i
=
W
k
a
i
k_i = W^k a_i
ki=Wkai这两个公式计算得来。得到了attention score之后我们往往会让其经过一个softmax层(也可以是别的激活函数)得到
α
′
\alpha^{'}
α′,经过了softmax之后的attention score总和为1。有了相关度之后我们需要根据相关度计算信息,可以由下面的公式得到
b
i
b^i
bi。
图片中是以第一个向量为例,后面的向量也和第一个向量的计算方式类似。更近一步,我们可以将这样的操作写成矩阵运算的形式。
如上图所示,我们最终可以得到output。
参考资料:
https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/self_v7.pdf