BERT论文核心点记录

佛系调参

已于 2023-05-25 22:05:58 修改

阅读量722

点赞数

分类专栏：自然语言处理文章标签：自然语言处理语言模型 bert

于 2023-05-25 22:05:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yzy__zju/article/details/130762202

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

BERT适合分类任务（整段分类后者词分类），对生成任务不友好

使用BERT的方法：只需要在预训练好的BERT基础上新增一个输出层，然后用标记好的数据进行有监督微调

Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder，双向是指在self-attention的每个位置能看到左/右两侧的上下文信息

BERT由两大部分组成

1.预训练

有两种预训练任务

（1）Masked LM

每个sentence随机masked掉15%的token。因为在微调时候是没有[MASK]这个特殊token的，为了弥补预训练和微调时的这个mismatch，作者采用如下策略：

1.80%的概率为[MASK]

2.10%的概率是随机的token

3.10%的概率不改变，仍是原来的token

（2）NSP, Next Sentence Prediction

输入两个句子A和B，B有50%的概率是A的下一句，50%的概率不是。采用[CLS]对应的输出向量进行二分类训练

2.微调

预训练好的模型参数也全部参与训练

额外增加一个输出层进行训练。

本质是分类模型：[CLS]对应输出向量用于整个分类，其余token对应的输出向量用于token-level的分类。用softmax函数实现多分类

网络结构

BERT-BASE, L=12, H=768, A=12，110M即1.1亿参数（和GPT-1具有相近参数）

BERT-LARGE, L=24, H=1024, A=24，340M即3.4亿参数

输入输出表示

为了兼容多种下游任务，BERT输入可以是一个句子或者两个句子，统称为一个Sequence

采用WordPiece embeddings，这样输入字典为3w个token（以空格区分，每个单词作为token的话，字典会非常大）

输入的第一个token永远是[CLS]，[CLS]的BERT输出向量（维度也为H）可用于整个句子的分类

每个输入句子后面都跟一个分隔符[SEP]，因此输入句子对pair的话会有两个[SEP]

每个输入token的embedding由三部分组成，三个embedding都是通过网络学习得到的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT论文核心点记录

BERT适合分类任务（整段分类后者词分类），对生成任务不友好使用BERT的方法：只需要在预训练好的BERT基础上新增一个输出层，然后用标记好的数据进行有监督微调Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder，双向是指在self-attention的每个位置能看到左/右两侧的上下文信息。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。