李宏毅老师机器学习第四节 Self-attention

最新推荐文章于 2024-08-18 12:02:19 发布

朗月清风鸣蝉

最新推荐文章于 2024-08-18 12:02:19 发布

阅读量205

点赞数

文章标签： cnn 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45668166/article/details/130454042

版权

目录

一、Self-attention能解决什么问题

二、Self-attention怎么考虑一整个input sequence的资讯

三、多头注意力机制

四、问题&总结

一、Self-attention能解决什么问题

直接回答：模型的输入有很多个向量，Self-attention机制可以关注到整个input sequence的信息，即，输出的每个label都是考虑了整个input sequence得到的

模型的输入是一组向量，向量的长度会改变，比如

（1）句子是一组向量，每个单词是一个向量

（2）一段声音是一组向量，把一小段声音讯号看做一个向量

（3）图也是一组向量，图的每一个点看做一个向量

模型的输出有3种可能性：
（1）每个向量都有一个label，如词性标注（一段话每个词的词性）（只讲这种）

（2）整个向量组只有一个label，如情感分析（一段评价是正面的还是负面的）

（3）机器自己决定输出多少个label，如翻译

二、Self-attention怎么考虑一整个input sequence的资讯

Self-attention会自动确定两个向量之间的相关性α

方法一：向量点积

方法二：向量相加---经过一个激活函数---经过一个transform---得到α

计算每个向量和所有向量之间的相关性α_(1,i)，然后经过softmax的处理，得到α'（相当于权重，和a1相关性高的向量的权重就会大一些），这样我们就知道了哪些向量和a1是最有关系的。接下来根据α'抽取出sequence里面的重要资讯。

a1-a4分别乘以 $W^{v}$ ,得到v1-v4,每一个v乘以α' 再求和得到b1。

这样，如果a1和a2相关性比较大，则b1的值会更接近a2

以下是self-attention的矩阵计算过程

三、多头注意力机制

四、问题&总结

1.Self-attention和全连接的区别是什么？

输入层有A B C 3个特征向量，现在要构造一个网络求3者的权重，然后加权求和得到输出O，即O=w_a*A + w_b*B + w_c*C，如果采用全连接层，w_a,w_b,w_c是根据位置确定的，

我第一次给你三个数据ABC，然后你得出了B最重要，也就是让 w_B 最大。然而我下次给你的顺序可能是BAC，这次A在刚才B的位置，如果你用全连接层来实现的话，得出的结果就会变成 O=w_A*B + w_B*A + w_C*C 。这就变成了A最重要了，这显然不是我们想要的结果。

而采用注意力机制的话，权重与位置无关，而是和输入的向量本身有关
参考链接：https://www.zhihu.com/question/320174043/answer/651998472

朗月清风鸣蝉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

朗月清风鸣蝉 CSDN认证博客专家 CSDN认证企业博客

码龄5年

3: 原创

206万+: 周排名

66万+: 总排名

1125: 访问

: 等级

31: 积分

0: 粉丝

1: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

分类专栏

最新评论

深度学习基础
CSDN-Ada助手: 非常感谢用户分享的深度学习基础知识，文章内容清晰易懂，让人受益匪浅。祝贺用户持续创作，为大家带来更多有价值的知识。建议用户可以在下一篇文章中深入探讨某个具体应用场景，或者分享自己在实践中遇到的挑战和解决方案，这样可以更好地帮助读者理解和应用深度学习技术。期待用户的下一篇作品。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
李宏毅老师机器学习第五节 Transformer
CSDN-Ada助手: 非常棒的博客！看到你对机器学习模型的深入理解，让我深受启发。除了你所提到的self-attention机制、残差连接和层归一化等技术，还有其他一些与Transformer相关的拓展知识和技能，例如BERT、GPT等。希望你能继续分享你的学习心得，让我们一起进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
李宏毅老师机器学习第四节 Self-attention
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。