【機器學習2021】7 Self-attention

yyyang404

已于 2022-04-29 09:22:46 修改

阅读量362

点赞数 1

文章标签：机器学习深度学习

于 2022-03-29 22:13:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyyang_/article/details/123833807

版权

【機器學習2021】自注意力機制 (Self-attention)

Transformer: Attention is all you need

Self-attention input可以是hidden layer的output

1. Find the relevant vector in a sequence

计算相关度(relevant) $\alpha$ 的方法: Dot-product & Additive

在这里插入图片描述

每一个 $\alpha$ 乘上不同的矩阵得到 $q, k, v$

其中，矩阵 $W^q, W^k, W^v$ 是网络learn出来的

(self-attention中这是唯三需要learn的参数，其它都不用

在这里插入图片描述

2. 计算attention score（一排 $\alpha$ ）

其他所有变量对于该变量的相关度 $\alpha$ ，包括自己

这里都是Dot-product，直接q点乘k

可以变成矩阵相乘（下图右下），得到相关度矩阵A

在这里插入图片描述

3. 取softmax， $\alpha$ 变成 $\alpha^{’}$ （ $A$ 变成 $A^{’}$ ）

A’ :Attention matrix

在这里插入图片描述

用softmax没什么道理，Relu都可以的

4. 基于attention score提取重要的相关信息
在这里插入图片描述

计算了
$\sum a_{1,i}^{'}v^i$

，其中 $v$ 由 $a$ 计算得到 (记得对自己也要算)

attention越大， $b$ 会越接近其中的 $v$

Self-attention 是包括了 CNN

在这里插入图片描述

Self-attention更加flexible，所以：

小数据上CNN好，大数据上Self-attention好

在这里插入图片描述

Self-attention 取代了 RNN （maybe）

在这里插入图片描述

Self-attention的注意力全局，RNN记忆力较短
RNN非平行化，按顺序生成；Self-attention一次平行处理完（更快了）
f-attention的注意力全局，RNN记忆力较短
RNN非平行化，按顺序生成；Self-attention一次平行处理完（更快了）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。