HungYi_Lee ML Self-Attention 笔记

最新推荐文章于 2024-10-08 20:27:53 发布

新面孔619

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量702

点赞数 7

分类专栏： Notes Machine Learning 文章标签： python 人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwj619wwj/article/details/142321103

版权

Notes 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

Machine Learning

2 篇文章 0 订阅

订阅专栏

一般输入是一个向量，但是有时问题比较复杂，比如遇到文字处理、语音识别、图像识别等问题时，输入变得比较复杂，需要输入一组向量，且输入的个数不是稳定的，每次输入的序列长度不一样。

FC V.S. Self-Attention

做词性标注（Part-Of-Speech tagging, POS tagging) 时需要标注句子中每个单词的词性，但是遇到句子比如 “I saw a saw” 时如果使用全连接网络 (Full Connected network) 就不能很好的识别各个单词的词性，因为作为输入的两个 “Saw” 是完全一样的，实现词性标注需要网络考虑更多的信息，如图
在这里插入图片描述

这样就是给全连接网络一整个窗口的信息，让他考虑上下文。但是有局限，比如语音识别中如果一个任务不是只考虑这一个窗口就可以解决，而是要考虑一个序列，这样就不合适了。

如果只是简单的将窗口开大，这个全连接网络就需要非常多的参数，运算量可能很大，还容易发生过拟合，此时可以考虑自注意力模型。

Self-Attention 运作原理

自注意力模型会考虑整个序列的参数，输入几个向量就输出几个。输出的向量再放进全连接网络得出结果。
在这里插入图片描述

计算过程

在这里插入图片描述

输入一组向量 $a$ ，输出一组向量 $b$ ，每个 $b$ 都是考虑了所有 $a$ 得到的。接下来介绍 $b^1$ 产生的过程：

1. 根据 $a^1$ 找出与之相关的其他向量

用 $\alpha$ 表示每两个向量之间的关系。把左边的向量乘上矩阵 $W^q$ ，右边的向量乘上矩阵 $W^k$ ，得到两个向量 $q$ 和 $k$ ，再做逐元素（element-wise）相乘，得到标量 $\alpha$ 。当然还有其他方法，但是这是最常用的方法

2. 套用到Self-Attention中

自注意力模型采用 QKV (查询-键-值) 模式，分别计算 $a^1, a^2, a^3, a^4$ 之间的关联性 $\alpha$

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先计算查询 $q^i$ 和键 $k^i$

$q^1=W^q\times a^1, \space k^1=W^k \times a^1$

$k^2=W^k \times a^2, \space k^3=W^k \times a^3, \space k^4=W^k \times a^4$
然后通过计算查询 $q^1$ 与键 $k^i$ 之间的内积（Inner-product）计算注意力分数 $\alpha_{1, i}$
得到注意力分数之后在进行 softmax 操作得到 $\alpha'$
$\alpha'_{1,j} = \frac{\exp(\alpha_{1,j})}{\sum_j \exp(\alpha_{1,j})}$
得到 $\alpha'$ 之后，根据关联性抽取重要信息

由 $a^1$ 到 $a^4$ 累积 $W^v$ 权重的向量： $v^1, v^2, v^3$ 和 $v^4$ ，按下述规律每一个向量都被赋予上注意力加权的数值 $\alpha'$ ，再把它们加起来

$v^i = W^v \times a^i \\ b^1 = \sum_i \alpha'_{1,i} v^i \\$
此时，关联性越强， $a_{1, i}'$ 的值越大，加权之后得到的值就越接近 $v^i$ 。

Vectorization

在这里插入图片描述

multi-head self-attention 多头注意力

翻译、语音识别中会用到多头注意力，多了一个超参数就是头的个数

简单理解

就是分多个组，不同组的矩阵相乘得到不同的组，工作时只考虑这一个组，不考虑其他组了，其他与单头相同

应用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Positional Encoding 位置编码

做POS tagging时，知道单词的位置很重要。比如一个动词一般不会出现在句首，一般是名词。

所以说自注意力层还需要位置信息，决定每一个输入在序列中的位置。此时要使用位置编码（Postional Encoding）

位置编码为每个位置设定一个位置向量 $e^i$ ，直接在 $a^i$ 上面加上 $e^i$ 作为输入，就可以得到位置的信息。

位置编码是 hand-crafted

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

truncated self-attention 截断自注意力

truncated self-attention 可以解决向量序列长度过大的问题。有时在 NLP中，不需要看一整句话，只要看一个小的范围即可

关注

7
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

新面孔619 CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

110万+: 周排名

8万+: 总排名

4747: 访问

: 等级

179: 积分

174: 粉丝

106: 获赞

6: 评论

107: 收藏

私信

关注

热门文章

分类专栏

Notes 2篇
Machine Learning 2篇
Paper Notes 1篇
笔记 1篇

最新评论

Datawhale X 李宏毅苹果书 AI夏令营: Lec5
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
面向对象基础
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
面向对象基础
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
作为小白，我改了三次的2048代码，终于有点用了！！！
六悦流苏: 楼主可以指导我一哈嘛
作为小白，我改了三次的2048代码，终于有点用了！！！
CSDN-Ada助手: 恭喜您开始博客创作！看到您经过三次修改的2048代码终于有所成效，让我感到十分欣慰。作为小白，您已经在编程的路上迈出了坚实的一步。接下来，我建议您可以分享一些您在学习编程过程中遇到的问题和解决方法，这将会对其他小白们有所帮助。希望您能继续保持谦虚的态度，不断学习，不断进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。