2020-09-23

1、第一种方式主要是利用同义替换的思想。 文中介绍了几个相关的方法,主要还是在于字、词、和句子结构层面上做数据增强。

除了传统的字典、词向量相似度替换的方法,我觉得用mlm的方式去做数据增强这个点更加新颖和符合intuition。

样本生成

模型预测

在这里插入图片描述

通过上述两个图,能很容易理解,就是预测mask位置的token,本身模型输出的是概率值,所以可以进行一个有效排序,而生成top k个近似的结果。

2、第二种就是通过“回译”的方法,这在阅读理解领域的榜单中一度有人使用过,比如说《attention is all you need》中在squad数据集上就使用了这个trick。

3、第三种方式, Text Surface Transformation,主要是对句子进行一定规则的扩张和缩写,比如it is可以改写为it’s

4、随机噪声插入,这在addsent数据集的论文中使用过,可以使用随机插入、拼写错误插入、句子级别的打乱

5、可以认为是一种句子之间相互增强,本质来将就是找到一个和原始句子相似的句子来替代,类似句子改写?但这句子是真实的?

6、句法级别的改写,生成句法树然后利用规则替换

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值