课节9：BERT和它的家族-介绍和微调

Racin_01

已于 2022-04-14 19:33:27 修改

阅读量401

点赞数

文章标签： nlp

于 2022-04-14 19:24:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43631284/article/details/124178833

版权

bert核心流程：先pre-train后微调
Pre-train Model：将每一个token表示成一个embedding vector
传统embedding手段（类似于Wordvec之类的）最大的缺点就是没有考虑上下文的意思，同一个词放到不通的上下文下embedding是一样的。
bert之类的模型采用的是Contextualized word Embedding：与传统embedding最大的区别是产生每一个embedding的时候会将上下文的意思考虑进来，同样的单词在不同的句子中embedding不会一样。
现在类似于bert之类的模型有越来越大的趋势。
现在主流趋势是让bert之类的大模型变小，有很多（类似于知识蒸馏）技术可以让大模型变小，性能损失还不大。

How to fine-tune

NLP任务分类

输入部分：如果输入是一个sentence，直接就丢入model进行train就可以了，但是如果是多个sentence，那么就需要在每个句子之间加入一个sep分割符，将n个sentence拼成一个整体sentence丢入model进行train

pre-train和fine-tune的搭配方式

一种是pre-train和fine-tune是解耦的，训练完pre-train就不管了，我们只是需要微调fine-tune

另一种是将pre-train和fine-tune进行融合，统一训练，在训练过程中统一调整fine-tune和pre-train的参数

因此一种创新的方式就是adaptor方式，即将pre-train model和fine-tune model进行merge，但是每次只需要修订pre-train 大model里面的一部分参数就可以了，就类似于图中apt中的参数，因此这样训练难度就下来了

glue模型：专门用来测试一个NLP模型对人类语言的了解程度（一种评价指标）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
课节9：BERT和它的家族-介绍和微调

李宏毅NLP课程课节9：BERT和它的家族-介绍和微调
复制链接

扫一扫

Racin_01 CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

108万+: 周排名

17万+: 总排名

8495: 访问

: 等级

147: 积分

29: 粉丝

25: 获赞

2: 评论

60: 收藏

私信

关注

热门文章

分类专栏

数据分析 1篇
Leetcode 6篇
DGL 3篇

最新评论

DGL节点分类简单实现
wan_qin6: 你好，我想问一下，节点分类是否可以分批次进行分类，我看实例里面是使用的全图进行的？跪求解答，真的蒙了我是。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。