CPT: a pre-trained unbalanced transformer for both Chinese language understanding and generation笔记

提出一个与预训练不同的CPT模型。利用自然语言理解与自然语言生成,共享编码器。两个具有共享编码器的特定解码器分别使用掩码语言建模( MLM )和去噪自动编码( DAE )任务进行预训练。通过部分共享的架构和多任务预训练,CPT可以( 1 )通过两个解码器学习NLU或NLG任务的特定知识,( 2 )灵活地进行微调,充分挖掘模型的潜力。此外,不平衡变压器节省了计算和存储成本,使CPT具有竞争力,大大加速了文本生成的推断。
现状:①对于自然语言理解( NLU )任务,我们通常选择双向编码器表示( BERT )或RoBert作为主干模型;对于自然语言生成( NLG )任务,我们通常选择双向自回归转换器( BART )或生成式预训练转换器( GPT ) 作为主干模型.
②少有研究者将NLU和NLG融合到一个模型当中。统一的预训练模型(UniLMs)和通用语言模型(GLM)都采用了统一的Transformer编码器进行理解和生成任务。然而结构限制了他们能够使用更灵活的与训练任务。
UniLMs:使用注意力掩码集合进行预训练,这使得模型既可以用于生成任务,也可以用于分类任务。UniLM的所有参数在生成和判别之间是共享的。
PALM:是一个关注条件生成的PTM。为了迫使编码器理解给定上下文的含义,添加了MLM来预训练编码器。
ERNIE 3.0:使用了一个通用编码器和几个特定任务的解码器,但它采用了Transformer-XL作为主干,其生成式预训练任务是具有特殊掩蔽注意矩阵的从左到右LM。
CPT由三部分组成:
在这里插入图片描述
扩充知识:
MLM(掩盖语言模型):
WWM(全词掩盖):在这里插入图片描述
CLM(因果语言模型):因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到在它之前的token信息,而看不到在它之后的token,模型的训练目标是根据在这之前的token来预测下一个位置的token。
详细了解参照:https://blog.csdn.net/sinat_37574187/article/details/131350296
CPT除了能够理解和生成,还可以基于提示的方式进行分类任务
在这里插入图片描述

  • 10
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值