论文《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》
CopyNet 是在 Seq2Seq + Attention 的基础上,引入了拷贝机制,对某些任务会有所擅长。模型结构如下图
![image.png-110.5kB](https://i-blog.csdnimg.cn/blog_migrate/ac8d6b4e32b78575bc4c2f99c7804701.png)
实现上有关键两点(即图中右边的上下两个矩形框),
Prediction with Copying and Generation
即从 decoder hidden state, st s t ,到预测输出单词 yt y t 的过程。本来直接一个线性映射就可以了,现在有点麻烦。
p(yt) p ( y t ) 的概率分两个模式构成,
- Generate-Mode
- 对于在输出词表 V V 中的单词 vi v i ,有
φ(yt=vi)=Wost,vi∈V∪UNK(1) (1) φ ( y t = v i ) = W o s t , v i ∈ V ∪ UNK
- 上面 Wo∈R(N+1)×ds W o ∈ R ( N + 1 ) × d s , st∈Rds s t ∈ R d s , ds d s 是 st s t 的维度大小。
- 对于在输出词表 V V 中的单词 vi v i ,有
- Copy-Mode
- 对于在输入中出现的单词,预测的概率有
- 对于在输入中出现的单词,预测的概率有