Neural Machine Translation by Jointly Learning to Align and Translate(注意力模型)论文阅读笔记

本文是关于Neural Machine Translation with Attention模型的阅读笔记。相较于seq2seq模型,注意力模型不再将源句子编码为固定长度向量,而是通过自适应选择源句子向量的子集,以解决长句子处理的难题。模型使用双向RNN编码输入序列,并在解码时通过注意力机制确定源句子中相关位置,以此预测目标词。解码过程包括计算注意力权重、上下文向量及生成目标词的概率。
摘要由CSDN通过智能技术生成

一、背景

seq2seq模型:https://blog.csdn.net/zyk9916/article/details/118002934

在seq2seq模型中,encoder将整个源句子编码成一个固定长度的向量(即取encoder中的最后一个隐状态),然后送到decoder中解码。这种方法对使得长句子难以处理。

作者认为,将句子编码成定长的向量是提升模型性能的瓶颈,因此提出了注意力模型来改善这个限制。

作者提出的模型不将整个输入句子编码为一个固定长度的向量。相反,它将输入语句编码为一个向量序列,并在decode时自适应地选择这些向量的子集。每次在翻译中生成一个词时,都会搜索源句子中相关信息最集中的一组位置。然后,该模型根据与这些源位置相关的上下文向量和之前生成的所有目标词来预测目标词。

二、模型

Encoder:

输入序列:
在这里插入图片描述

采用双向RNN模型,对输入序列进行编码,得到一系列隐状态:

在这里插入图片描述

Decoder:

生成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值