Attention机制

简简单单的貔貅

已于 2022-10-21 12:05:31 修改

阅读量537

点赞数

分类专栏：名词解释文章标签：深度学习机器翻译模型

于 2022-10-21 11:44:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/127442518

版权

名词解释专栏收录该内容

2 篇文章

订阅专栏

1、直观理解

attention 就是权重
其本质就是加权求和，解决对于context的理解

2、以此为基础的模型

transformer、bert、gpt

3、RNN

建立隐层之间时序关联：每一时刻的隐层状态St不仅取决于输入Xt，还包含上一时刻状态St-1

4、Encoder-Decoder

1. 两个RNN组合，先编码再解码
2. 缺点：不管输入多长，都先编码成一个长度相同的向量c，导致精度下降

5、正经理解

1. 不再是编码成一个向量C，而是每个时间生成不同的C，Ct = t时刻所有输入*t时刻所有输入对应的权重
2. 对于Ct而言，t时刻的输入权重即为attention（或者说Ct对于不同的输入，要给予不同的注意力）
3. attention权重矩阵可以通过训练得到

6、self-attention

1.attention摆脱输入序列长度限制，但RNN需要逐个看过句子单词才能给出输出，速度太慢
2.self-attention先提取每个单词的意义，然后根据生成顺序选取所需要的信息
通俗理解：人们对于一个人的印象，不仅取决于他/她今天的打扮（encoder编码了），还来自于人们对他/她之前的印象（已经翻译得到的）

7、三大优点

参数更少、速度更快、效果更好

8、联系

人类视觉也是一种attention机制，能将有限注意力放到重点信息上，节省资源，获得最有效的信息。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。