深度学习升级打怪之self attention笔记

self attention

在听了李宏毅老师关于self attention的讲解后我觉得讲的非常好😉,下面是我在听完课之后做的一些学习记录,主要的参考是李宏毅老师的网课和课件(文末给出)。

self attention在NLP和很多其它领域都有着广泛的应用,以词性标注为例。

I saw a saw

这里的第一个"saw"是动词,第二个“saw”是名词(锯子),对于词性标注而言,模型的输入和输出的数量是相同的

在这里插入图片描述

我们先考虑最简单的情况

在这里插入图片描述
假设我们将这些词单独输入到一个全连接层,再输出,那么明显我们没有考虑到词与词之间的关系,训练出来的模型效果不会很好。一个比较自然的想法是在对每一个词进行词性标注的时候都要考虑其它词的影响。那么怎样判断其它的词的重要性呢?这个问题就可以使用self attention机制来解决。

在这里插入图片描述

我们需要找出和当前词汇相关的向量,同时我们需要衡量向量之间的相关度,在这里我们用 α \alpha α(attention score)来衡量向量之间的相关度,相关度的计算方法有很多种,比较常见的有dot production 和additive.

在这里插入图片描述
假设原本的向量为 a i a_i ai那么 q i q_i qi k i k_i ki则是由 q i = W q a i q_i = W^q a_i qi=Wqai k i = W k a i k_i = W^k a_i ki=Wkai这两个公式计算得来。得到了attention score之后我们往往会让其经过一个softmax层(也可以是别的激活函数)得到 α ′ \alpha^{'} α,经过了softmax之后的attention score总和为1。有了相关度之后我们需要根据相关度计算信息,可以由下面的公式得到 b i b^i bi

在这里插入图片描述

图片中是以第一个向量为例,后面的向量也和第一个向量的计算方式类似。更近一步,我们可以将这样的操作写成矩阵运算的形式。

在这里插入图片描述
在这里插入图片描述

如上图所示,我们最终可以得到output。

参考资料:

https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/self_v7.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值