RoBERTa：BERT的优化方案

最新推荐文章于 2024-04-25 23:31:27 发布

Neways谭

最新推荐文章于 2024-04-25 23:31:27 发布

阅读量2.1k

点赞数 2

分类专栏： NLP 文章标签：人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46195663/article/details/110531300

版权

RoBERTa是针对BERT的优化模型，通过延长训练时间、增大batch size、更多数据、移除NSP任务、使用动态掩码等方法改进。在GLUE和SQuAD上表现出色，其主要优化点包括动态掩码、更大的批处理大小、增加文本长度，且只保留了MLM任务。实验表明，这些改动能提高模型性能。

摘要由CSDN通过智能技术生成

RoBERTa

前言说明
BERT简介
- 结构
- 输入
- 训练目标
- - MLM
  - NSP
- 优化
- - Adam
  - GELU
- 数据
相融实验
RoBERTa

RoBERTa论文地址

前言说明

BERT模型是欠训练的，作者提供了一个超参优化的BERT训练模型RoBERTa, 即稳健优化的BERT方法（Robustly Optimized BERT Pretraining Approach)
优化的点包括：

训练时间更长，更大的batch，更多的数据
去掉了NSP训练（BERT的两个语言训练分别是MLM和NSP）
训练更长的句子
在MLM训练时，动态改变masking pattern
RoBERTa方法在GLUE（文本分类）和SQuAD（阅读理解）上面都刷新或者达到当前最好的水平。最重要的是，RoBERTa只是沿用BERT原有的MLM训练模型，没有用新的结构。

BERT简介

结构

BERT，顾名思义，bidirectional encoder representation transformer, 是以transformer中编码器(encoder)为基础构建结构（参加我画的这个图），训练方法采用MLM进行双向语言模型（有点像CBOW）。
在这里插入图片描述

输入

输入的数据是两个上下文句子，我以为是为了更好理解句子间的关系。输入数据形式是 $CLS] x_1, x_2, ..., x_N, [SEP], y_1, y_2,...,y_M,[EOS]$

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
RoBERTa：BERT的优化方案

RoBERTa前言说明BERT简介结构输入训练目标MLMNSP优化AdamGELU数据相融实验动态OR静态掩码模型输入格式和NSP lossBatch size文本编码RoBERTaRoBERTa论文地址前言说明BERT模型是欠训练的，作者提供了一个超参优化的BERT训练模型RoBERTa, 即稳健优化的BERT方法（Robustly Optimized BERT Pretraining Approach)优化的点包括：训练时间更长，更大的batch，更多的数据去掉了NSP训练（BERT的两个
复制链接

扫一扫

专栏目录

Neways谭 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

54万+: 周排名

51万+: 总排名

2万+: 访问

: 等级

243: 积分

11: 粉丝

10: 获赞

5: 评论

91: 收藏

私信

关注

热门文章

分类专栏

最新评论

Transformer
Neways谭: 作者调试出来的，具体代码里应用有相对简化，可以去翻下开源的代码
Transformer
Neways谭: transformer里用到了相似度计算（你觉得这篇文章有展示），是scaled-dot product，这个在我这篇文章里有说明，可以仔细看下。
Transformer
lmw0320: 另外，真的不明白，这里搞个位置编码，用个三角函数，还要做成如此复杂。。我实在不知道这种公式，是如何弄出来的。。。
Transformer
lmw0320: 为什么我看百度的一篇关于Transformer的文章:https://blog.csdn.net/longxinchen_ml/article/details/86533005, 里面根本没提到这个相似度计算的问题？
高效文本分类工具：fastText
不正经的kimol君: 写的不错，学习了，学习的道路上一起进步，也期待你的关注与支持！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。