Attention model-注意力模型

最新推荐文章于 2024-08-14 16:19:45 发布

马天乐233

最新推荐文章于 2024-08-14 16:19:45 发布

阅读量141

点赞数

分类专栏： NLP RNN 深度学习文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/weixin_45245063/article/details/115669700

版权

深度学习同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

RNN

3 篇文章 0 订阅

订阅专栏

NLP

2 篇文章 0 订阅

订阅专栏

注意力模型解决了长句子翻译中的挑战，模拟人类逐步理解并翻译的过程。它通过分配不同的注意力权重给源句子的不同部分，形成上下文向量。每个上下文由前一时间步的输出与加权的Encoder值之和构成，权重通过softmax函数确保总和为1。打分函数用于确定注意力权重，可由神经网络计算得出。

摘要由CSDN通过智能技术生成

Attention model

简单理解下注意力模型

在这里插入图片描述

看上图，如果去掉注意力机制，直接将下面部分最后一个时间步的输出作为第一个上下文context，就是一般的RNN模型。这种模型的一个问题是，例如在做翻译的时候，一个很长的句子，人类很难一下子读完然后翻译，应该是读几个词翻译一下，即翻译出来的句子的前几个词与原句的前几个词关系更相关，注意力更关注前几个词，注意力机制做的也就是这个工作。

每个上下文context，引入注意力机制后，它的值应该上个时间步的输出加上以注意力作为权重的Encoder的值之和。

$\large \alpha^{<t,t^,>}$ 表示输出 $y^t$ 应该放多少注意力到 $a^{t^,}$ 上
$\large c^1=\alpha^{<1,1>}*a^{<1>}+\alpha^{<1,2>}*a^{<2>}+...\\ c^2=s^1+\alpha^{<2,1>}*a^{<1>}+\alpha^{<2,2>}*a^{<2>}+...$

如何计算注意力？看下面公式：
$\large \alpha^{<t,t^,>}=softmax(e^{<t,t^,>})$
$e^{<t,t^,>}$ 可以叫做打分函数，所有打分经softmax确保注意力之和为1。
$e^{<t,t^,>}$ 的求法可以是建立一个小的神经网络，输入时 $S^{t-1}和a^{t,}$ ，输出就是 $e^{<t,t^,>}$ 。

马天乐233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention model-注意力模型

Attention model简单理解下注意力模型看上图，如果去掉注意力机制，直接将下面部分最后一个时间步的输出作为第一个上下文context，就是一般的RNN模型。这种模型的一个问题是，例如在做翻译的时候，一个很长的句子，人类很难一下子读完然后翻译，应该是读几个词翻译一下，即翻译出来的句子的前几个词与原句的前几个词关系更相关，注意力更关注前几个词，注意力机制做的也就是这个工作。每个上下文context，引入注意力机制后，它的值应该上个时间步的输出加上以注意力作为权重的Encoder的值之和。α&
复制链接

扫一扫

专栏目录