[博学谷学习记录] 超强总结,用心分享|人工智能seq2seq和PGN架构对比总结分享

1.seq2seq架构的综合分析

         seq2seq架构图中, 对原文本Source Text应用注意力机制, 得到内容分布张量Context Vector. 再结合解码器端当前时间步的输入Decoder Hidden State, 共同产生Vocabulary Distribution. 从中利用贪心解码, 取概率最大的单词作为当前时间步解码器的输出。

1.1 seq2seq架构的优点:

    属于生成式模型, 区别于TextRank抽取式模型, 可以摆脱原文本的束缚, 自由生成相同语义的短文本摘要。

1.2 seq2seq架构的缺点:

一、重复

       相同短语, 短句的重复. (这是经典seq2seq架构解决文本摘要问题所面对的最大痛点!!!)

二、不能准确再现事实细节

       有的摘要很短却没有点明原文核心语义; 有的摘要很长却无效的重复.

三、无法处理OOV单词

       所有不在单词映射字典中的单词都被UNK替代了

1.3 seq2seq架构改进点

一、采用新的架构, 力求可以将描述原文细节的单词直接用到摘要中.

二、如果模型具备第一点的能力, 可以copy原始文本的单词, 那么将极大的解决OOV问题.

三、引入机制来控制和跟踪原始文本的重复范围, 减少生成摘要的重复问题

2.seq2seq架构的综合分析

PGN架构图, 基本上是在seq2seq架构基础上多了一层.

先计算出来一个 p_gen .
然后用 (1 - p_gen ) 乘以 Attention Distribution , 得到原始文本的信息 ;
再用 p_gen 乘以 Vocabulary Distribution , 得到生成文本的信息 . 这两部分加和 , 得到 Final Distribution
整个网络的计算流程
注意力机制attention distribution计算 .
内容张量context vector计算 .
单词分布张量P_vocab计算 .
损失值loss计算 .
指针值p_gen计算 .
最终分布张量P_w计算 .

PGN数据的特殊性:

因为存在pointer, 在某些时候模型需要具备从source document中copy原文的能力. 也就是说即使某一个token属于OOV, 不在单词分布中, 模型"也能访问到这个token".

        第一: 构造数据迭代器的时候, 需要保存那些"属于source document, 但不属于word_to_id"的token.

        第二: 考虑到每一条样本数据都会有"特有的OOV"词表, 这些特殊token的长度也应该被保存下来以供模型使用

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值