[博学谷学习记录] 超强总结，用心分享|人工智能seq2seq和PGN架构对比总结分享

AAALice0.0

于 2023-04-02 22:36:58 发布

阅读量103

点赞数

文章标签：人工智能学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46515036/article/details/129918758

版权

1.seq2seq架构的综合分析

seq2seq架构图中, 对原文本Source Text应用注意力机制, 得到内容分布张量Context Vector. 再结合解码器端当前时间步的输入Decoder Hidden State, 共同产生Vocabulary Distribution. 从中利用贪心解码, 取概率最大的单词作为当前时间步解码器的输出。

1.1 seq2seq架构的优点：

属于生成式模型, 区别于TextRank抽取式模型, 可以摆脱原文本的束缚, 自由生成相同语义的短文本摘要。

1.2 seq2seq架构的缺点：

一、重复

相同短语, 短句的重复. (这是经典seq2seq架构解决文本摘要问题所面对的最大痛点!!!)

二、不能准确再现事实细节

有的摘要很短却没有点明原文核心语义; 有的摘要很长却无效的重复.

三、无法处理OOV单词

所有不在单词映射字典中的单词都被UNK替代了

1.3 seq2seq架构改进点

一、采用新的架构, 力求可以将描述原文细节的单词直接用到摘要中.

二、如果模型具备第一点的能力, 可以copy原始文本的单词, 那么将极大的解决OOV问题.

三、引入机制来控制和跟踪原始文本的重复范围, 减少生成摘要的重复问题

2.seq2seq架构的综合分析

PGN架构图, 基本上是在seq2seq架构基础上多了一层.

• 先计算出来一个 p_gen .

• 然后用 (1 - p_gen ) 乘以 Attention Distribution , 得到原始文本的信息 ;

• 再用 p_gen 乘以 Vocabulary Distribution , 得到生成文本的信息 . 这两部分加和 , 得到 Final Distribution

整个网络的计算流程

① 注意力机制attention distribution计算 .

② 内容张量context vector计算 .

③ 单词分布张量P_vocab计算 .

④ 损失值loss计算 .

⑤ 指针值p_gen计算 .

⑥ 最终分布张量P_w计算 .

PGN数据的特殊性:

因为存在pointer, 在某些时候模型需要具备从source document中copy原文的能力. 也就是说即使某一个token属于OOV, 不在单词分布中, 模型"也能访问到这个token".

第一: 构造数据迭代器的时候, 需要保存那些"属于source document, 但不属于word_to_id"的token.

第二: 考虑到每一条样本数据都会有"特有的OOV"词表, 这些特殊token的长度也应该被保存下来以供模型使用

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[博学谷学习记录] 超强总结，用心分享|人工智能seq2seq和PGN架构对比总结分享

seq2seq和PGN架构对比
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。