一文读懂注意力机制

最新推荐文章于 2024-08-21 10:32:10 发布

胖迪王

最新推荐文章于 2024-08-21 10:32:10 发布

阅读量1.1k

点赞数 1

分类专栏：知识学习文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_58439986/article/details/126306701

版权

知识学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在对小样本相关文献,对于注意力机制不是太了解,通过了解后,就想写一篇总结一下..

先给大家讲个小故事助助兴吧。🤭

一对情侣A和B下班后，

A问B：“今天吃什么鸭？”

B：“红烧肉，西红柿炒蛋”

A对B说：“家里没有肉和西红柿了，去菜市场买点肉和菜吧”

两人一同前往菜市场买菜，菜市场环境特别嘈杂。两个人一起到肉摊这里买点肉，肉有点贵，B就开启降价模式,A觉得B肯定能讲下来，就去其他的摊位转转。B降价成功后，发现A不在身边后，对菜市场进行了一番扫视后，仅此一眼便可寻到你。看见了A在水果摊附近,便径直走去。B对A轻喊，A转过头对B笑了笑。

当B对整个菜市场进行扫视时，忽略的周围的环境，脑海中只聚焦于A的身影。仅此一眼便可定位到她所在位置。这个有意识的现象被称为---聚焦注意力

显著注意力是指由外界环境无意识引起的注意力。比如你正在学习，突然门外邻居正在吵架,打断了你学习时的注意力

注意力机制：指的是在某一时刻将注意力集中到某件事，而忽略周围其他的一切事物。

如今，视觉注意力机制便是人类视觉所特有的大脑信息处理机制。人类通过快速扫描全局信息，只关注于目标信息，便对该目标信息投入更多的资源，来获取有关于目标信息的更多细节，从而忽略周围的其他信息。而深度学习中的注意力机制和人类的视觉注意力机制类似，都是从大量的信息中提取对当前目标信息更加细节的信息。

深度学习中的注意力机制依附于Encoder-Decoder框架下，该框架场景应用广泛。

上图是文本处理的Encoder-Decoder框架。简单理解为Encoder-Decoder相当于一个翻译者。对于一个句子，我们希望输入句子Source=< $x_1,x_2,x_3....x_n$ >,通过Encoder-Decoder框架生成目标句子Target=< $y_1,y_2,y_3....y_n$ >.其中，Source和Target可以来自同一个语言，也可以是不同的语言。Encoder就是编码器，将Source通过非线性变化转化为中间语义信息C：

$C=F\left ( x_1,x_2,x_3,....x_n \right )$

Decoder就是解码器,将输入信息Source+前一时刻的历史信息获得目标信息

$y_i=g(C,y_1,y_2....y_i-1)$

注意力机制

对上面提到的Encoder-Decoder框架并未体现注意力模型.我们称为"注意力不集中",因为中间的语义信息C是不变的,就是说输入句子中的任意单词对生成目标单词的影响力都是相同的.相当于你在表达一个观点时,没有侧重点.但当输入信息很长时,语义信息用语义向量表示,模型内部出现混乱,就会丢失很多细节信息.为解决该问题引入注意力机制

原理:

通过打分函数s( $q_i,h_i$ ),获得输入信息 $h_i$ 的注意力分配概率分布 $\alpha _i$

$[\alpha _1,\alpha _2...\alpha _i]=softmax([s(q_1,h_1),s(q_2,h_2)...s(q_i,h_i)])$

查询向量 q (这个向量往往和你做的任务有关), 打分函数s( $q_i,h_i$ )是一个标量,将前一时刻的输出状态 $q_i$ 在 $h_i$ 上的关注程度.通过softmax对结果进行归一化后,便得到查询向量q在各个输入 $h_i$ 上的注意力分布 $\alpha =[\alpha _1,\alpha _2...\alpha _n]$ .注意力分布和输入信息一一对应.