1.seq2seq架构的综合分析
seq2seq架构图中, 对原文本Source Text应用注意力机制, 得到内容分布张量Context Vector. 再结合解码器端当前时间步的输入Decoder Hidden State, 共同产生Vocabulary Distribution. 从中利用贪心解码, 取概率最大的单词作为当前时间步解码器的输出。
1.1 seq2seq架构的优点:
属于生成式模型, 区别于TextRank抽取式模型, 可以摆脱原文本的束缚, 自由生成相同语义的短文本摘要。
1.2 seq2seq架构的缺点:
一、重复
相同短语, 短句的重复. (这是经典seq2seq架构解决文本摘要问题所面对的最大痛点!!!)
二、不能准确再现事实细节
有的摘要很短却没有点明原文核心语义; 有的摘要很长却无效的重复.
三、无法处理OOV单词
所有不在单词映射字典中的单词都被UNK替代了
1.3 seq2seq架构改进点
一、采用新的架构, 力求可以将描述原文细节的单词直接用到摘要中.
二、如果模型具备第一点的能力, 可以copy原始文本的单词, 那么将极大的解决OOV问题.
三、引入机制来控制和跟踪原始文本的重复范围, 减少生成摘要的重复问题
2.seq2seq架构的综合分析
PGN架构图, 基本上是在seq2seq架构基础上多了一层.
PGN数据的特殊性:
因为存在pointer, 在某些时候模型需要具备从source document中copy原文的能力. 也就是说即使某一个token属于OOV, 不在单词分布中, 模型"也能访问到这个token".
第一: 构造数据迭代器的时候, 需要保存那些"属于source document, 但不属于word_to_id"的token.
第二: 考虑到每一条样本数据都会有"特有的OOV"词表, 这些特殊token的长度也应该被保存下来以供模型使用