BERT论文精读

如果对nlp过去三年里面最重要的文章作排序的话,你把bert排第二,就很难有文章可以排第一了。cv里面很早就可以做预训练,比如在imagenet上,以提升性能,而nlp很难做预训练。BERT应运而生!!!
transformer主要是用在机器翻译这个小任务上面(广义的词就是语言理解),GPT是单向而BERT是双向。写摘要的时候,写与两篇相关工作的区别是什么,改进在什么地方,好在什么地方,相对精度,绝对精读。
句子层面的任务:用来去建模句子之间的关系(情绪识别,两个句子之间的关系等)。词源层面的任务:实体命名识别(街道等),需要输出一些细粒度等词源层面的输出。BERT不是第一个提出这个想法的人,而是BERT让这个方法出圈了。语言模型就是单项的,预测未来。
BERT贡献:展现了双向信息的利用;第一个基于微调的模型。它也是a➕b。BERT和它之后的一系列工作证明了在nlp上面用没有编号的数据集训练出来的模型效果比你在有编号相对来说小点的数据集上训练出来的模型更好。同样的想法,在cv的也被广泛应用。
BERT细节:预训练和微调。简单说明一下,不能自洽。主要调了三个参数L 层数 H 宽度 A 自注意力头。用百分之15做掩码。预训练用了两个经典数据集,告诉我们使用文本数据集是更加重要的,因为transformer比较擅长处理比较长的句子。刚开始BERT用的优化器是adam的不完全版,长时间训练可能影响不大,但是短时间内误差就很大了。
总结:写一篇paper最好着重写一个卖点,不止双向性,与GPT比,用的是编码器,但是做机器翻译没那么好做了,做生成类等就不那么好做了。BERT展示出可以训练更大的数据集,模型越大性能越好。简单暴力效果好,也会被超越,与GPT思路很像。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值