Lecture 5：Self-attention

最新推荐文章于 2024-07-21 19:18:55 发布

zzz_qing

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量48

点赞数

文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzz_qing/article/details/130207359

版权

本节介绍各式各样的Self-attention的技术

预备知识：见Lecture 4(Preparation)：Self-attention部分

回顾Self-attention的知识：Self-attention需要处理输入的sequence，设这个sequence的长度为N。做Self-attention的时候会产生N个key的vector和N个query的vector，它们两两之间要做dot product，一共要做N^2次dot product。把N^2次dot product的结果集合起来就得到一个N*N大小的Attention Matrix。

Self-attention的痛点是当input sequence非常长的时候，即N非常大的时候，要得到N*N的Attention Matrix，运算量会非常惊人。

下面介绍加速计算Attention Matrix的方法：

① Local Attention/Truncated Attention

② Stride Attention

③ Global Attention

Add special token into original sequence

Attend to every token - collect global information
Attended by every token - it knows global information

可以将上面这些方法组合起来使用，在Multi-head Self-attention中，不同的head使用不同的方法：

上面三种方法都是人为设定的，由人来规定Attention Matrix哪些位置需要计算，哪些位置直接补0。但是人为的设定不一定能得到最好的结果。

④ Clustering

⑤ Learnable Patterns

以上五种方法都会产生一个N*N的Attention Matrix，Linformer的文章中指出Attention Matrix里会有很多redundant的columns，如下图，所以我们并不需要一个N*N的Attention Matrix，里边会有很多重复的资讯：

⑥ 减少Attention Matrix的大小

通过减少key的数量来减少Attention Matrix的大小。query在有的情况下可以减少，有的情况下不可以。当输入N个sequence，输出也是N个sequence的时候，减少query会改变输出的数量，此时query不可以减少。

有两种方式可以减少key的数量，如下图：

⑦ 改变矩阵计算的顺序

Attention Mechanism是由三个矩阵相乘得到的：

忽略掉softmax这一过程，把矩阵相乘顺序由V*(KT*Q)变为(V*KT)*Q，可加速运算：

把softmax加回来，推导可得输出的计算公式如下，计算所有的输出（所有的bi）时，每个bi计算公式中黄色和蓝色的矩阵都是相同的，所以分别只需要计算一次就可以得到黄色和蓝色的矩阵，后续直接用这两个矩阵即可：

⑧ 不一定要使用q和k计算产生Attention Matrix——Synthesizer

把Attention Matrix里的元素当做network的parameters：

⑨ Attention-free

把Attention去掉，下面是一些Attention-free的方法：

一系列Self-attention方法的对比：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lecture 5：Self-attention

回顾Self-attention的知识：Self-attention需要处理输入的sequence，设这个sequence的长度为N。做Self-attention的时候会产生N个key的vector和N个query的vector，它们两两之间要做dot product，一共要做N^2次dot product。Self-attention的痛点是当input sequence非常长的时候，即N非常大的时候，要得到N*N的Attention Matrix，运算量会非常惊人。⑦ 改变矩阵计算的顺序。
复制链接

扫一扫

zzz_qing CSDN认证博客专家 CSDN认证企业博客

码龄5年

44: 原创

118万+: 周排名

221万+: 总排名

9309: 访问

: 等级

448: 积分

9: 粉丝

2: 获赞

7: 评论

12: 收藏

私信

关注

热门文章

分类专栏

论文精读 2篇

最新评论

Overcoming catastrophic forgetting in neural networks
xuebing55555: 请问有完整实现代码吗？
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 非常棒的博客！学习元学习是非常有趣和有用的！我们希望看到更多关于此主题的内容。我们建议您写一篇有关如何使用元学习来优化深度学习模型的博客。谢谢你的分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615663682?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
The first GAN——Generative Adversarial Nets
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614789723。
[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression
CSDN-Ada助手: 非常感谢您分享这篇博客。恭喜您能够坚持创作，继续保持哦！同时，我希望您能够在未来的博客中，更深入地探讨机器学习的其他方面，例如深度学习和神经网络等等。期待您的下一篇作品，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。