N10 - NLP中的注意力机制

好名让狗申请了

已于 2024-08-29 14:38:52 修改

阅读量921

点赞数 8

分类专栏：深度学习自然语言处理文章标签：自然语言处理人工智能深度学习

于 2024-08-29 13:51:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen_blog/article/details/141675624

版权

深度学习同时被 2 个专栏收录

49 篇文章 0 订阅

订阅专栏

自然语言处理

9 篇文章 0 订阅

订阅专栏

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

目录

1. 注意力机制是什么
2. 注意力实现步骤
总结与心得体会

1. 注意力机制是什么

在上节的seq2seq框架中，让两个循环神经网络（RNN）构成了编码器-解码器结构。其中编码器逐个读取输入词，获得固定维度的向量表示，然后解码器基于这些输入逐个提取输出词。
RNN构成编码器-解码器结构
上面的结构的问题在于，解码器从编码器接受的唯一信息是 最后一个编码器隐藏状态，这是类似于对输入的序列进行总结。

所以对于较长的输入文本，结构会变成如下图所示
较长文本的RNN结构
如果仍然希望解码器仅仅利用最后一个编码器的隐藏状态的输出就输出完成的译文，肯定是不太合理地，会导致灾难性遗忘。

所以我们如果可以向解码器提供每个编码器时间步的向量表示，而不是只把最终的给它，是不是就能改进翻译的结果呢，这就需要引入注意力机制。

注意力机制是编码器和解码器之间的接口，它为解码器提供每个编码器隐藏状态的信息（最后一层的除外）。通过这个设置，模型能够有选择地侧重输入序列中游泳的部分，有助于模型更高效地处理输入长句。

注意力机制的本质：通过为每个单词分配值，注意力机制可以为不同单词分配不同的注意力。然后利用softmax对编码器隐藏状态进行加权求和，得到上下文向量（Context Vector）。

注意力层的实现可以分成6个步骤。

2. 注意力实现步骤

0. 准备隐藏状态

首先需要准备一个解码器隐藏状态和所有可用的编码器的隐藏状态
状态准备

1. 获取每个编码器隐藏状态的分数

分数（标量）通过评分函数获得。图示是解码器和编码器隐藏状态之间的点积。
计算隐藏状态的分数

2. 通过softmax层运行所有分数

将上一步的得分放到softmax层，这些得分代表注意力分布。
通过softmax计算注意力分布

3. 通过softmax得分将每个编码器的隐藏状态相乘

将每个编码器隐藏状态与对应的softmax得分相乘，获得alignment向量

4. 向量求和

将所有的alignment向量相加，生成上下文向量(Context Vector)

5. 将上下文向量输入编码器

最后一步就是把生成的上下文向量给编码器作为输入使用
把上下文向量给编码器

最后来一个总的动图

注意力计算的过程

总结与心得体会

在没有本节学习之前，我一直以为注意力机制就是Transformer中使用的自注意力机制。通过注意力机制的过程学习，我才发现，自注意力机制只是注意力机制中的一种，并且Transformer这种也只是自注意力机制的一种实现形式。宏观上来看，自注意力机制可以用在更广泛的场景中，比如计算一下特征图每层之间的注意力分数，叫做通道注意力机制。

好名让狗申请了

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
N10 - NLP中的注意力机制

在没有本节学习之前，我一直以为注意力机制就是Transformer中使用的自注意力机制。通过注意力机制的过程学习，我才发现，自注意力机制只是注意力机制中的一种，并且Transformer这种也只是自注意力机制的一种实现形式。宏观上来看，自注意力机制可以用在更广泛的场景中，比如计算一下特征图每层之间的注意力分数，叫做通道注意力机制。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。