2022-Du-GLM General Language Model Pretraining with Autoregressive Blank Infilling
Abstract
GLM基于自回归填空的通用语言模型,可比预训练自编码模型BERT、自回归模型GPT、编码-解码模型T5效果好。
自回归填空架构
微调GLM
讨论与分析
比较GLM与其他预训练模型的差异
与BERT比较
与XLNet比较
与T5比较
与UniLM比较
实验
预训练
多任务预训练
序列到序列
结论
GLM是通用的预训练架构以供NLunderstanding和generation生成,可由自回归模型解决,填空混合了注意力masks和novel 2D位置编码,实验上GLM的表现更加出色,并且可以有效地在不同任务下共享参数。
附
设置
超参数