ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training

最新推荐文章于 2024-04-16 09:42:51 发布

AI强仔

最新推荐文章于 2024-04-16 09:42:51 发布

阅读量548

点赞数 2

分类专栏： NLP 人工智能 transformer

人工智能同时被 3 个专栏收录

150 篇文章 18 订阅

订阅专栏

51 篇文章 5 订阅

订阅专栏

33 篇文章 4 订阅

订阅专栏

1 简介

Prophet：先知。ProphetNet，先知网络，名字起的牛。
本文根据2020年《ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training》翻译总结。

ProphetNet：将在XLNet中提到的two-stream 自注意力扩展到n-strean 自注意力。
ProphetNet可以同时预测未来的n-gram，而原始的transformer只预测未来的一个单词。

2 ProphetNet

ProphetNet基于transformer encoder-decoder结构。相比最初的transformer Seq2Seq model，ProphetNet进行了如下3个修改：
1）引入了自监督目标：n-gram 预测；
2）引入了n-gram自注意力机制；
3） mask based autoencoder denoising task for Seq2Seq pre-training。

2.1 Sequence-to-Sequence Learning

在这里插入图片描述

2.2 未来N-gram的预测

在这里插入图片描述

如上图，encoder不变，还是原始transformer的encoder。
在这里插入图片描述

ProphetNet Decoder变成同时预测未来n个token。
在这里插入图片描述

n-gram 预测目标函数如下,包括两部分，第一部分language modeling loss，同原来transformer的；第二部分是n-1 未来token预测损失函数，使模型预测未来的tokens：

在这里插入图片描述

在这里插入图片描述

2.3 N-Stream 自注意力

在这里插入图片描述

如下图，h stream是主要的stream，g stream是未来第1个token的预测stream，s stream是未来第2个token的预测stream.
在这里插入图片描述

3 实验结果

在这里插入图片描述

不同n-gram比较，如下表，可以看到3gram比2gram好。：

在这里插入图片描述

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training

1 简介Prophet：先知。ProphetNet，先知网络，名字起的牛。本文根据2020年《ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training》翻译总结。ProphetNet：将在XLNet中提到的two-stream 自注意力扩展到n-strean 自注意力。ProphetNet可以同时预测未来的n-gram，而原始的transformer只预测未来的一个单词。2 ProphetNetProph
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。