论文笔记《Shakespearizing Modern Language Using Copy-Enriched Sequence-to-Sequence Models》—ACL2017

这篇论文运用parallel data,进行文本风格迁移(从莎士比亚风转为现代风)。

整体模型思路比较简洁明了:attention-based seq2seq + pointer network

数据集大小为:

  • training: 18395
  • val: 1218
  • test: 1462

值得注意的是,由于数据集比较小,作者采用了很多减少参数的方法来训练模型:

  • 采用pre-trained word embedding。训练词向量的方法也颇为有趣。
    • 并没有直接使用Glove或是Word2Vec(作者给出的原因是原莎士比亚著作中有很多novel word forms,这些词应该不被包含在Glove或是Word2Vec中)。Instead, 作者直接在所有的训练集上预训了词向量。除训练集之外,作者还尝试引入了额外的训练语句PTB(Marcus et al. 1993)。在论文的实验部分,作者有给出引入PTB带来的影响。
    • 利用了一个外部词典(C)(map shakespearean words to modern English words)。借鉴Faruqui et al.(2014),利用外部词典更新已有embedding (P)的方法:给定词向量集 p_i \in P, 词典
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值