预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》

论文发布时间2020年三月

1.预训练模型背景

1.1 预训练模型的优势

1.在庞大的文本语料库上进行预训练可以学习通用的语言表示形式并帮助完成下游任务。
2.预训练提供了更好的模型初始化,通常可以带来更好的泛化性能并加快目标任务的收敛速度。
3.可以将预训练视为一种正则化,以避免对小数据过度拟合[42]。

1.2 预训练模型的发展过程

第一代PTMs旨在学习良好的单词嵌入。由于下游任务不再需要这些模型本身,因此对于计算效率而言它们通常很浅,例如Skip-Gram和GloVe。尽管这些经过预训练的嵌入可以捕获单词的语义,但它们不受上下文限制,无法捕获上下文中的高级概念,例如多义歧义消除,句法结构,语义角色,回指。
第二代PTMs专注于学习上下文词嵌入,例如CoV e [120],ELMo ,OpenAI GPT 和BERT 。仍然需要这些学习的编码器来表示下游任务在上下文中的单词。此外,还提出了各种预训练任务来学习PTMs,以用于不同的目的。

2.预训练模型概述

2.1 语言建模(LM)

LM通常特别是指自回归LM或单向LM。缺点是单向,不过可以构建双向的BiLM。

2.2 掩码语言建模(MLM)

1)完形填空,以克服标准单向LM的缺点。
2)序列到序列MLM(Seq2Seq MLM), Seq2SeqMLM,则是通过将 encoder-decoder (Seq2Seq) 应用到 MLM 上,这种变体有利于 Seq2Seq 类型的下游任务,比如 QA,总结和机器翻译。这一结构主要用在 MASS 和 T5 中。
3)E-MLM:
而在 BERT 之后的很多论文都对 MLM 做了一些改进以增强性能,作者将其总结为 E-MLM (Enhanced Masked Language Modeling)。
其中 RoBERTa 使用动态 masking,UniLM 将对 mask 的预测扩展到三种任务:单向、双向和 Seq2Seq。XLM 通过一种串联并行双语句对叫做 TLM (translation language modeling) 的模型实现 MLM。
而 SpanBERT 和 StructBERT 则是引入了结构化信息。而 ERINE (Baidu) 则是选择 MASK 实体和短语,E-BERT 和 ERINE (THU) 则是利用了实体 embedding 方法,这三者都是借助了外部知识来丰富 MLM。

2.3 排列语言建模(PLM)

当模型应用于下游任务时,MLM的预训练中使用的某些特殊标记(如[MASK])将不存在,从而导致预训练和微调之间存在差距。针对 MLM 中使用 MASK 导致的预训练与微调过程的不一致,Permuted Language Modeling (PLM) 对于一个给定序列,生成其所有可能排列进行采样作为训练的目标。值得注意的是,PLM 并不改变原始文本的位置,而是重新定义 token 预测的顺序。

2.4 去噪自动编码器(DAE)

去噪自动编码器(DAE)采用部分损坏的输入,旨在恢复原始的未失真输入。特定语言,序列到序列模型(例如标准Transformer)用于重构原始文本。有几种破坏文本的方法[98]:
(1)令牌屏蔽:从输入中随机采样令牌,并将其替换为[MASK]元素。
(2)令牌删除:从输入中随机删除令牌。与令牌屏蔽不同,该模型需要确定缺失输入的位置。
(3)文本填充:与SpanBERT一样,许多文本跨度也被采样并替换为单个[MASK]标记。每个跨度长度均来自泊松分布(λ= 3)。该模型需要预测跨度中缺少多少个令牌。
(4)句子置换:根据句号将文档分为多个句子,并以随机顺序对这些句子进行改组。
(5)文件轮换:随机地均匀选择一个令牌并旋转文件,以使其从该令牌开始。该模型需要标识文档的实际开始位置。

2.5 对比学习(CTL)

CTL (Contrastive Learning) 基于一种“learning by comparison”的思路,假设某些观测文本对比随机采样文本在语义上更相似,通过构建正样本和负样本并度量距离来实现学习。CTL 通常比 LM 具有更少的计算复杂度,也因此成为一个值得选择的 PTMs 训练标准。

2.6 Deep Info
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值