这篇论文运用parallel data,进行文本风格迁移(从莎士比亚风转为现代风)。
整体模型思路比较简洁明了:attention-based seq2seq + pointer network
数据集大小为:
- training: 18395
- val: 1218
- test: 1462
值得注意的是,由于数据集比较小,作者采用了很多减少参数的方法来训练模型:
- 采用pre-trained word embedding。训练词向量的方法也颇为有趣。
- 并没有直接使用Glove或是Word2Vec(作者给出的原因是原莎士比亚著作中有很多novel word forms,这些词应该不被包含在Glove或是Word2Vec中)。Instead, 作者直接在所有的训练集上预训了词向量。除训练集之外,作者还尝试引入了额外的训练语句PTB(Marcus et al. 1993)。在论文的实验部分,作者有给出引入PTB带来的影响。
- 利用了一个外部词典(C)(map shakespearean words to modern English words)。借鉴Faruqui et al.(2014),利用外部词典更新已有embedding (P)的方法:给定词向量集
, 词典