05 seq2seq和Attention

1、seq2seq

  1. seq2seq模型是以编码(Encode)、解码(Decode)为代表的架构方式模型。
    编码(Encode)将输入序列转化成一个固定长度的向量(语义向量C)
    解码(Encode)将固定长度的向量(语义向量C)转化成一个输出序列
    在这里插入图片描述

    编码方式:一般为多层LSTM
    解码方式:一般为RNN、CNN等
    问题:
    由于seq2seq模型在编解码阶段,使用由一个不变的语义向量C来联系,编码器要将整个序列的 信息压缩进一个固定长度的向量中去,就造成
    1.语义向量无法完全表示真个序列的信息
    2.最开始输入的序列容易被后输入的序列给覆盖掉,会丢失很多重要的信息,在长序列上表现的尤其明显。
    这里引入Attention

2、Attention

在编码时:
例如:输入C
y1 = f(C)
y2 = f(C,y1)
y3 = f(C,y2)
也就是说无论生成哪个单词,y1y2y3对生成某个目标单词yi的影响都是相同的,没有注意力集中

Tom chase Jerry。Encoder-Decoder框架逐步生成中文单词:“汤姆”,“追逐”,“杰瑞”。

在翻译“杰瑞”这个中文单词的时候,分心模型里面的每个英文单词对于翻译目标单词“杰瑞”贡献是相同的,很明显这里不太合理,显然“Jerry”对于翻译成“杰瑞”更重要,但是分心模型是无法体现这一点的,这就是为何说它没有引入注意力的原因。

没有引入注意力的模型在输入句子比较短的时候问题不大,但是如果输入句子比较长,此时所有语义完全通过一个中间语义向量来表示,单词自身的信息已经消失,可想而知会丢失很多细节信息,这也是为何要引入注意力模型的重要原因。

如果引入Attention模型,在翻译不同的单词时,其他单词对要翻译不同的单词 有不用的影响力

由固定的语义向量C换成根据当前输出单词来调整加入注意力变化的语义向量Ci
如图引入注意力机制的seq2seq框架
在这里插入图片描述
例如:
当不引入Attention时
C =(Tom,0.3)(Chase,0.2) (Jerry,0.5)
当引入Attention时
C汤姆 = g(0.6 * f2(‘Tom’),0.2 * f2(‘Chase’),0.2 * f2(‘Jerry’))
C追逐 = g(0.2 * f2(‘Tom’),0.7 * f2(‘Chase’),0.1 * f2(‘Jerry’))
C杰瑞 = g(0.3 * f2(‘Tom’),0.2 * f2(‘Chase’),0.5 * f2(‘Jerry’))
其中,f2函数代表Encoder对输入英文单词的某种变换函数,比如如果Encoder是用的RNN模型的话,这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值;g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数,一般的做法中,g函数就是对构成元素加权求和,即下列公式:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值