一文读懂Attention

最新推荐文章于 2021-02-07 19:22:23 发布

律动的波纹

最新推荐文章于 2021-02-07 19:22:23 发布

阅读量372

点赞数 1

分类专栏：机器学习深度学习文章标签： attention 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44177216/article/details/112289152

版权

一文读懂Attention

1. Attention本质是什么
2. Encoder-Decoder框架
- 2.1 Encoder-Decoder框架结构
- 2.2 Encoder-Decoder 过程
3. Attention机制
4. Attention深入理解
- 4.1 Attention机制的实质-寻址
- 4.2 Attention计算的三个阶段
5. self-Attention

1. Attention本质是什么

Attention（注意力）机制模仿了生物观察行为的内部过程，核心逻辑就是从关注全局到关注重点。如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对注意力焦点投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。在这里插入图片描述

2. Encoder-Decoder框架

要理解Attention机制，就需要先介绍下Encoder-Decoder框架，因为大多数的注意力模型是依附于该框架。但Attention机制是一种通用思想，本身并不依赖于特定框架。

2.1 Encoder-Decoder框架结构

下图是常用的Encoder-Decoder框架最抽象的一种表示。
文本处理领域的Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。

2.2 Encoder-Decoder 过程

对于句子对<Source,Target>，我们的目标是给定输入句子Source，期待通过Encoder-Decoder框架来生成目标句子Target。过程分为三步。

Source和Target分别由各自的单词序列构成：
$Source = < x_{1}, x_{2}...x_{m}> \\ Target = <y_{1}, y_{2}...y_{n}>$
Encoder，对输入source进行编码，将输入句子通过非线性变换转化为中间语义表示C。
$C = F(x_{1}, x_{2}...x_{m})$
Decoder, 根据句子Source的中间语义表达C和之前已经生成的历史信息
$y_{1}, y_{2}...y_{i-1} {\text{生成第i时刻的单词}}y_{i}$

最低0.47元/天解锁文章

律动的波纹

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一文读懂Attention

@[TOC] 一文读懂AttentionAttention本质是什么Attention（注意力）机制模仿了生物观察行为的内部过程，核心逻辑就是从关注全局到关注重点。如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对注意力焦点投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。Encoder-Decoder框架要理解Attention机制，就需要先介绍下Encoder-Decoder框架，因为大多数的注意力模型是依附于该
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。