5、注意力机制和Transformer模型

最新推荐文章于 2025-01-24 08:00:00 发布

不知道叫啥的喵

最新推荐文章于 2025-01-24 08:00:00 发布

阅读量4.1k

点赞数 10

分类专栏：机器学习、深度学习 # NLP学习

本文链接：https://blog.csdn.net/weixin_43570155/article/details/118199448

版权

1、人类的视觉注意力

从注意力模型的命名方式看，很明显其借鉴了人类的注意力机制，因此，我们首先简单介绍人类视觉的选择性注意力机制。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

简单来说，就和我在上一段官方文章中进行的加粗有着异曲同工之妙。人们会把更多的注意力放在ta认为重要需要注意的地方。这样我们更专注于更加重要的细节，减少信息干扰。

这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。

那么人类的这种“注意力机制”是否可用在AI中呢？
我们来看一下，图片描述（Image Caption）中引入了“注意力机制”后的效果。“图片描述”是深度学习的一个典型应用，即输入一张图片，AI系统根据图片上的内容输出一句描述文字出来。下面看一下“图片描述”的效果，左边是输入原图，下边的句子是AI系统自动生成的描述文字，右边是当AI系统生成划横线单词的时候，对应图片中聚焦的位置区域，如下图：
在这里插入图片描述

可以看到，当输出frisbee（飞碟）、dog（狗）等单词时，AI系统会将注意力更多地分配给图片中飞碟、狗的对应位置，以获得更加准确地输出

什么是“注意力机制”？

深度学习中的注意力机制（Attention Mechanism）和人类视觉的注意力机制类似，就是在众多信息中把注意力集中放在重要的点上，选出关键信息，而忽略其他不重要的信息。

回顾Encoder-Decoder框架（编码-解码框架）

目前大多数的注意力模型附着在Encoder-Decoder框架下，所以我们先来了解下这个框架。Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，该框架的抽象表示如下图：
在这里插入图片描述
给定输入X，通过Encoder-Decoder框架生成目标Y。其中，Encoder（编码器）就是对输入X进行编码，通过非线性变换转化为中间语义表示C；Decoder（解码器），根据输入X的语义表示C和之前已生成的历史信息生成目标信息。