Sequence to Sequence model

文章 Sequence to Sequence Learning with Neural Networks 进行总结


文章构造了一个4层Deep LSTM网络, 每层有1000个cell, 整个网络呈现encoder-decoder结构,encoder把variable length 的input sequence映射到一个fixed dimensional的向量,decoder再映射回output sequence。






模型完成一个英文到中文的翻译任务,如下,先把序列x映射到隐层v,再输出序列y,输出为vocabulary里词语(8000个)的softmax概率。



训练目标为


推测inference为


结果:




备注:   (1)训练过程会出现梯度爆炸,  所以对 梯度的Norm-2进行了限制scale。
              (2)句子长短不一,在构建batch的时候注意挑相似长度的组成一个batch ,以防止计算资源浪费。
              (3)在inference的时候是实时更新hypothesis库里的翻译结果,每预测一个词会对产生翻译的句子进行top-B的beam search



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值