恒源云(GPUSHARE)_替代MLM的预训练任务,真的超简单吗?

文章来源 | 恒源云社区

原文地址 | 简单到令人沮丧的替代MLM的预训练任务?

原文作者 | Mathor


看了这么多篇社区大佬Mathor的文章,就在刚刚,我居然发现大佬居然、大概、可能、也许在diss某个训练说法!

哇哦,amazing!这么神奇的吗?

我这小八卦之心,熊熊燃起了啊!这到底是个啥子神奇的模型训练方法?

大伙也别急惹,让我完整的copy大佬的文章,然后一起一睹究竟!

正文开始

EMNLP2021有一篇论文标题名为Frustratingly Simple Pretraining Alternatives to Masked Language Modeling,翻译过来就是「简单到令人沮丧的替代MLM的预训练任务」。但我给它加了个问号,因为我觉得首先作者提出的这些方法,对于模型来说太难了,即便是让我去做他所提出的这些预训练任务,我都不一定做得出来。其次是从结果来看效果似乎一般般

如下图所示,具体来说作者提出了4中用于替代MLM的预训练任务,分别是Shuffle、Random、Shuffle+Random、Token Type、First Char

PRETRAINING TASKS

Shuffle

作者提到这个方法的灵感来源于ELECTRA。具体来说,一个句子中有15%的token将会被随机调换顺序,然后模型需要做一个token级别的2分类问题,对于每一个位置预测该token是否被调换了位置。这个预训练任务的好处是,模型可以通过学习区分上下文中是否有token被打乱,从而获得句法和语义知识

对于Shuffle任务来说,其损失函数为简单的Cross-Entropy Loss:

其中 N N N表示一个样本的token数量, y i y_i yi p (

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值