CPT: a pre-trained unbalanced transformer for both Chinese language understanding and generation笔记

猪猪想上树

于 2024-07-21 14:30:50 发布

阅读量454

点赞数 15

文章标签： transformer 笔记深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46103454/article/details/140585917

版权

提出一个与预训练不同的CPT模型。利用自然语言理解与自然语言生成，共享编码器。两个具有共享编码器的特定解码器分别使用掩码语言建模( MLM )和去噪自动编码( DAE )任务进行预训练。通过部分共享的架构和多任务预训练，CPT可以( 1 )通过两个解码器学习NLU或NLG任务的特定知识，( 2 )灵活地进行微调，充分挖掘模型的潜力。此外，不平衡变压器节省了计算和存储成本，使CPT具有竞争力，大大加速了文本生成的推断。
现状：①对于自然语言理解( NLU )任务，我们通常选择双向编码器表示( BERT )或RoBert作为主干模型；对于自然语言生成( NLG )任务，我们通常选择双向自回归转换器( BART )或生成式预训练转换器( GPT ) 作为主干模型.
②少有研究者将NLU和NLG融合到一个模型当中。统一的预训练模型（UniLMs）和通用语言模型（GLM）都采用了统一的Transformer编码器进行理解和生成任务。然而结构限制了他们能够使用更灵活的与训练任务。
UniLMs：使用注意力掩码集合进行预训练，这使得模型既可以用于生成任务，也可以用于分类任务。UniLM的所有参数在生成和判别之间是共享的。
PALM：是一个关注条件生成的PTM。为了迫使编码器理解给定上下文的含义，添加了MLM来预训练编码器。
ERNIE 3.0：使用了一个通用编码器和几个特定任务的解码器，但它采用了Transformer-XL作为主干，其生成式预训练任务是具有特殊掩蔽注意矩阵的从左到右LM。
CPT由三部分组成：
在这里插入图片描述
扩充知识：
ML

最低0.47元/天解锁文章

猪猪想上树

博客等级

码龄5年

26
原创

351
点赞

286
收藏

534
粉丝

关注

私信

热门文章

最新评论

Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
FASTSPEECH 2论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
FASTSPEECH 2论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
ESVC论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
神经串联式语音转换:对基于串联的单次语音转换方法的再思考论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

C++入侵检测与网络攻防之防火墙iptables

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。