【機器學習2021】7 Self-attention

【機器學習2021】自注意力機制 (Self-attention)

Transformer: Attention is all you need

Self-attention input可以是hidden layer的output

1. Find the relevant vector in a sequence

计算相关度(relevant) α \alpha α的方法: Dot-product & Additive

在这里插入图片描述

每一个 α \alpha α 乘上不同的矩阵得到 q , k , v q, k, v q,k,v

其中,矩阵 W q , W k , W v W^q, W^k, W^v Wq,Wk,Wv是网络learn出来的

(self-attention中这是唯三需要learn的参数,其它都不用

在这里插入图片描述

2. 计算attention score(一排 α \alpha α

其他所有变量对于该变量的相关度 α \alpha α,包括自己

​ 这里都是Dot-product,直接q点乘k

​ 可以变成矩阵相乘(下图右下),得到相关度矩阵A

在这里插入图片描述

3. 取softmax, α \alpha α 变成 α ’ \alpha^{’} α A A A 变成 A ’ A^{’} A

A’ :Attention matrix

在这里插入图片描述

用softmax没什么道理,Relu都可以的

4. 基于attention score提取重要的相关信息
在这里插入图片描述

计算了
b = ∑ a 1 , i ′ v i b = \sum a_{1,i}^{'}v^i b=a1,ivi

,其中 v v v a a a计算得到 (记得对自己也要算)

attention越大, b b b 会越接近其中的 v v v

Self-attention 是包括了 CNN

在这里插入图片描述

Self-attention更加flexible,所以:

小数据上CNN好,大数据上Self-attention好

在这里插入图片描述

Self-attention 取代了 RNN (maybe)

在这里插入图片描述

  1. Self-attention的注意力全局,RNN记忆力较短
  2. RNN非平行化,按顺序生成;Self-attention一次平行处理完(更快了)
    f-attention的注意力全局,RNN记忆力较短
  3. RNN非平行化,按顺序生成;Self-attention一次平行处理完(更快了)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值