07 Self Attention-学习笔记-李宏毅深度学习2021年度

最新推荐文章于 2022-06-07 10:51:43 发布

iioSnail

最新推荐文章于 2022-06-07 10:51:43 发布

阅读量811

点赞数 1

分类专栏：机器学习文章标签：深度学习机器学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaohongfei_358/article/details/123222200

版权

机器学习专栏收录该内容

97 篇文章 175 订阅

订阅专栏

上一篇：06 卷积神经网络CNN-学习笔记-李宏毅深度学习2021年度

本文内容

Self-Attention及Multi-head Attention的相关概念

课堂笔记

序列模型的种类：

1. 输入是一个Vector，输出是Scalar或Class

在这里插入图片描述

2. 输入是一组Vector (数量不一定固定) ，输出是Scalar 或 Class

在这里插入图片描述

3. 输入一组Vector，输出一组Vector，输入Vector的个数与输出Vector的个数一致。例如词性标注（POS Tagging）

在这里插入图片描述

在这里插入图片描述

4. 输入是一组Vector，输出是一个Label。例如情感分析（Sentiment Analysis）

在这里插入图片描述

5. 输入是一组Vector，输出是一组Vector，但输出的Vector的长度由机器自己决定。例如：翻译（Translation）

在这里插入图片描述

普通神经网络的弊端：对于输入向量，无法考虑其上下文。例如，对于I saw a saw（我看到了一把斧子）这个句子直接输入神经网络，它很难识别出第一个saw和第二个saw意思是不一样的。

Self-Attention的作用：将输入向量重新编码，生成一个考虑了上下文的新向量

在这里插入图片描述

Self-Attention可以叠加多层

Self-Attention核心设计思路：每个输入都会和其他输入计算一个相关性分数，然后基于该分数，加权平均得出包含上下文信息的新向量

公式为： $b_i = \sum_j \alpha_{i,j} \cdot v^i$

$b_i$ 为第 $i$ 个包含上下文的输出向量
$\alpha_{i,j}$ 为第 $i$ 输入向量和第 $j$ 个输入向量的相关性分数，分数越大，相关性越高
$v^i$ 为经过处理的第 $i$ 个输入向量

在这里插入图片描述

$\alpha_{i,j}$ 的计算公式为： $\alpha_{i,j} = q^i\cdot k^j$

其中， $q^i = W^q \cdot a^i \\\\ k^j=W^k \cdot a^j$

$W^q$ 和 $W^k$ 为要训练的矩阵
$a^i$ 为输入向量

所有的 $\alpha$ 计算完毕后，通常还要经过softmax进行归一化，也可以采用其他方式

在这里插入图片描述

$v^i$ 的公式为： $v^i= W^v \cdot a^i$

$W^v$ 是要训练的矩阵

在这里插入图片描述

将 $q^1, ..., q^i, ...)$ 合成矩阵 $Q$

将 $k^1, ..., k^i, ...)$ 合成矩阵 $K$

将 $a^1, ..., a^i, ...)$ 合成矩阵 $I$

则 $Q$ 的公式为： $Q=W^q \cdot I$

$K$ 的公式为： $K=W^k \cdot I$

$V$ 的公式为： $V=V^k \cdot I$

Attention公式为： $\text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$

$d_{k}$ 为输入向量的个数， $\sqrt{d_{k}}$ 的目的是将对标准差进行归一化

Self-Attention 使用总结：

1. 定义矩阵 $W^q, W^k, W^v$

2. 计算出 $Q, K, V$

3. 带入 $\operatorname{Attention}(Q,K,V)$ 得到输出向量即可

Multi-head Self-Attention: 只用一套 $W^q, W^k, W^v$ 泛化能力较差，所以采用多套 $W^{q,i}, W^{k,i}, W^{v,i}$ ， $i$ 表示第 $i$ 套 $W$ ，换句话说，一个 $a^i$ 计算出多个 $q^{i, \cdot}, k^{i, \cdot}, v^{i, \cdot}$ ，然后计算出多个 $b^{i, \cdot}$

在这里插入图片描述

最后再通过 $W^O$ 将 $b^{i,\cdot}$ 合并

在这里插入图片描述

Self-Attention的弊端：没有考虑输入向量的位置信息。即只考虑了输入向量上下文都有哪些向量，但没有考虑当前向量所处的位置。例如，I saw a saw 对 I 进行编码时，只知道要把saw a saw 考虑进来，但并没有考虑 I 是处在句子的第一个位置

解决方案：为输入向量加上一个向量 $e^i$ ，即 $a^{i} = e^i+a^i$

$e^i$ 的指定策略：1. 手工指定 2. 通过数据学习出来

Self-Attention的应用：最常用于 NLP 任务中，例如 Transformer 和 BERT。也可以用于图像领域和语音识别领域。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
07 Self Attention-学习笔记-李宏毅深度学习2021年度

上一篇：06 卷积神经网络CNN-学习笔记-李宏毅深度学习2021年度本文内容Self-Attention及Multi-head Attention的相关概念视频(上)链接视频(下)链接PPT链接课堂笔记序列模型的种类：1. 输入是一个Vector，输出是Scalar或Class2. 输入是一组Vector (数量不一定固定) ，输出是Scalar 或 Class3. 输入一组Vector，输出一组Vector，输入Vector的个数与输出Vector的个数一致。例如词性标注（P
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

iioSnail 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。