A t t e n t i o n , you should know...

最新推荐文章于 2024-07-21 10:39:09 发布

一碗白开水一

最新推荐文章于 2024-07-21 10:39:09 发布

阅读量199

点赞数

分类专栏： NLP 文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43859829/article/details/112679104

版权

NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

由于seq2seq模型中，decoder 非常依赖encoder后的context.但context中的信息太多，不能针对性的生成正确的decoder.因此引入attention.
在这里插入图片描述

下面是一种实现方法：
$q_j = W_qI$
$k_i = W_kI$
$v_i = W_vI$

$a_{1j}, a_{2j},...,a_{nj}]=softmax( [k_1, k_2,...,k_n]*qj)$
$H_j = [a_{1j}v_1+a_{2j}v_2+...+a_{nj}v_n]$

图解：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有两种实现方式：（1）一种是选取最高概率的输入信息；（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。
硬性注意力模型的缺点：硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。

一碗白开水一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A t t e n t i o n , you should know...

由于seq2seq模型中，decoder 非常依赖encoder后的context.但context中的信息太多，不能针对性的生成正确的decoder.因此引入attention.Match函数可以自己设计,z1 是c0 输入到RNN后hidden layer的输出qj=WqZjq_j = W_qZ_jqj=WqZjki=Wkhik_i = W_kh_iki=Wkhivi=Wvhiv_i = W_vh_ivi=Wvhi[a1j,a2j,...,anj]=softmax([k1,k
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。