Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks(速读）

最新推荐文章于 2023-03-18 11:49:46 发布

安之若醇

最新推荐文章于 2023-03-18 11:49:46 发布

阅读量754

点赞数

分类专栏：论文文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_49599247/article/details/122792521

版权

论文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

abstract

传统注意力机制是一个二次的复杂度（quadratic complexity），这篇论文提出的外部复杂度是一个线性的，计算复杂度低而且内存消耗小。

introduction

在这里插入图片描述

外部注意力机制复杂度低，精读高
多头外部注意力机制，构建了一个MLP的架构
大量的实验

注：多层感知器（Multilayer Perceptron,缩写MLP）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量

method

在这里插入图片描述
这个图是对比self-attention和external-attention的

这个公式比较好理解，可以看一看（虽然可能并不太好写
）

传统self-attention:
$A=(\alpha)_{i,j}=softmax(QK^T)$
（Q是query K是key）
$F_{out}=AV$
(V是value)

mulit-head external attention:
$A=(\alpha)_{i,j}=Norm(FM^K_T)$

$F_{out}=AM_V$

在这里插入图片描述
这样利用额外的空间就是一个线性的了

experiment

这篇文章感觉提出来的东西不多，但是实验真的非常多，在主要是在不同的领域都进行了实验

在这里插入图片描述
这里主要是跟传统注意力做对比

底下主要就是跟其他网络了

conclusion

主要也是说了说自己提出了一个注意力机制

我是分隔线

再往底下翻了翻，发现居然是清华团队写的论文、、、、

可能感觉只提出了一个自注意力机制没有那么强，但是后面的实验可谓是涉及到了各个领域（感觉就是比较严谨的实验）

后来参考了一篇大佬的博客

大佬说它没有做消融实验（但是它确实有一个标题是ablation study）,不过看看底下的表格的话确实好像没有，虽然结果也非常不错。

大佬说用一层来储存信息有点太草率了，虽然结果还不错。但是有道理，可能要研究的就是简化一下这个机制，所以肯定是越变越草率？（buzhidao T_T）

小白的总结：

还行吧这篇读下来，感觉以后可能速读的时候也要看看实验了（因为虽然每个实验的结果肯定都是自己好，但是不同的论文会用不同的dataset和不同的ablation study ）所以还是看看。还有就是公式那块，有些推导可能没有那么重要，但是一些基本的输入输出的维度还是也要看看的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks(速读）

abstract传统注意力机制是一个二次的复杂度（quadratic complexity），这篇论文提出的外部复杂度是一个线性的，计算复杂度低而且内存消耗小。introduction外部注意力机制复杂度低，精读高多头外部注意力机制，构建了一个MLP的架构大量的实验注：多层感知器（Multilayer Perceptron,缩写MLP）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量method这个图是对比self-attention和external-attention
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。