提出一个与预训练不同的CPT模型。利用自然语言理解与自然语言生成,共享编码器。两个具有共享编码器的特定解码器分别使用掩码语言建模( MLM )和去噪自动编码( DAE )任务进行预训练。通过部分共享的架构和多任务预训练,CPT可以( 1 )通过两个解码器学习NLU或NLG任务的特定知识,( 2 )灵活地进行微调,充分挖掘模型的潜力。此外,不平衡变压器节省了计算和存储成本,使CPT具有竞争力,大大加速了文本生成的推断。
现状:①对于自然语言理解( NLU )任务,我们通常选择双向编码器表示( BERT )或RoBert作为主干模型;对于自然语言生成( NLG )任务,我们通常选择双向自回归转换器( BART )或生成式预训练转换器( GPT ) 作为主干模型.
②少有研究者将NLU和NLG融合到一个模型当中。统一的预训练模型(UniLMs)和通用语言模型(GLM)都采用了统一的Transformer编码器进行理解和生成任务。然而结构限制了他们能够使用更灵活的与训练任务。
UniLMs:使用注意力掩码集合进行预训练,这使得模型既可以用于生成任务,也可以用于分类任务。UniLM的所有参数在生成和判别之间是共享的。
PALM:是一个关注条件生成的PTM。为了迫使编码器理解给定上下文的含义,添加了MLM来预训练编码器。
ERNIE 3.0:使用了一个通用编码器和几个特定任务的解码器,但它采用了Transformer-XL作为主干,其生成式预训练任务是具有特殊掩蔽注意矩阵的从左到右LM。
CPT由三部分组成:
扩充知识:
ML