【深度学习笔记一，注意力机制原理】

无念而悲

已于 2024-09-11 09:32:59 修改

阅读量24

点赞数

分类专栏：深度学习文章标签：人工智能

于 2024-09-10 17:34:40 首次发布

原文链接：https://zhuanlan.zhihu.com/p/384853008

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

发现一位讲解的很细致老师，附上学习地址：https://lulaoshi.info/deep-learning/

上面提到的鲁老师也有讲解注意力机制，参考文章可以看上面的网站，也可以直接从知乎看：知乎鲁老师注意力机制

还有一篇文章。。。。。
声明：笔记摘抄于文章：

https://zhuanlan.zhihu.com/p/384853008
在这里插入图片描述
文中提到的阅读笔记为：https://www.cnblogs.com/ydcode/p/11040811.html

1 background

注意力机制本身想要解决的问题很简单，就是算不动了

在整体模型越来越庞大的情况下，大家明显地觉得运算开始吃力了，这样的问题下直观的思想就是考虑如何按重要性更好地将手头有限的计算资源进行分配，以保证更多的计算资源可以分配到确实重要的内容上，而尽量不要太浪费在所谓不重要的内容上。人脑面对海量信息往往利用注意力将部分不重要的信息略去而只关注于重要的信息，这里将注意力分为两种：

自上而下的有意识的注意力，也就是聚焦式注意力（Focus Attention）：此时的注意力是确定地有一个目的的，也就是会主动地去关注某一个特定的对象，本身依赖目的，存在预定的任务（举例阅读理解问题，此时给定问题以后，关注的只是和问题相似的文本段落对象，对其他对象可以少输入或不输入模型以节约计算资源）
自下而上的无意识的注意力，也就是基于显著性的注意力（Saliency Based Attention）：也就是说此时并没有预先根据某种目的或任务关注某一个特定的对象，而是单纯地当某一个对象表现出某种特征的时候，比如某一个对象值很大时则转而主动关注这样的对象（举例 max 池化，门控机制）
这里来一个 nndl 中的例子：

一个和注意力有关的例子是鸡尾酒会效应。当一个人在吵闹的鸡尾酒会上和朋友聊天时，尽管周围噪音干扰很多，他还是可以听到朋友的谈话内容，而忽略其他人的声音（聚焦式注意力）。同时，如果背景声中有重要的词（比如他的名字），他会马上注意到（显著性注意力）
从这个思路出发，当前已经进行了较多的尝试，比如最简单的池化层：最大池化本身也就是选择一个范围内的最大值保存下来，直观理解可以认为就是只关注了值最大的部分而将其他部分内容舍去，以更好地将更宝贵的计算资源放在可能重要的部分

进一步地从当前主流的 encode - decode （编码器 - 解码器）模型来讨论一下注意力机制的优势。传统的编码器解码器模型存在以下两个很大的问题：

编码器需要把输入的信息转化为一个定长的序列才能给到解码器进行处理，也就意味着此时容易造成信息的损失（非要塞到一个定长的序列里）
此时输入的序列和最后解码器的输出本身难以作对齐，以翻译问题来说，我输入 Tom chase Jerry，此时由于编码器 RNN 是平等地对每一个词来进行编码操作的，也就是说我最后翻译出的汤姆本身是依赖了相同权重的 Tom 、chase、 Jerry 这三个词。但明显汤姆的翻译应该更多地依赖 Tom 才对，这就造成了本身输入序列和输出序列的不对齐。这同样也影响了本身神经网络的解释性问题，将所有输入的东西都以相同的权重看待将导致难以解释我最后的结果到底是依赖什么得出的。
而注意力机制，也就是尝试在输入的信息上计算注意力分布 → 从而得到不同输入信息对应当前任务的重要性分布 = 不同的权重 → 再根据不同的重要性，也就是不同的权重计算当前输入信息的加权平均，以实现（对重要的，和任务相关的信息赋予更高的权重，而将不重要的信息基本忽略或赋予较低的权重）以更有效率地利用计算资源

2 整体架构

注意力机制本身只是一种思想，并不依赖某一个特定的模型（虽然总是依赖编码器 - 解码器的模型来解释它），可以简单地总结为两个步骤：

在给定的信息上计算注意力分布（也就是判断什么信息重要，什么信息不重要，分别赋予不同的权重）
根据注意力分布来计算所有输入信息的加权平均

2.1 计算注意力分布
简化问题，考虑此时输入 N 个向量：
，我想要从中选出对于我的目标而言比较重要的信息，需要引入我的目标任务的表示，称为查询向量（query vector），则此时问题可以转换为考察输入的不同内容和查询向量之间的相关度，一个简单的思路就是通过一个注意力打分函数对不同内容进行打分，赋予与我当前任务比较相关的部分更大的权重，再直接地通过一个 softmax 层得到分布，也就是输入信息的不同部分的权重。

这里的注意力打分函数主要有以下几种：
在这里插入图片描述