《How to Fine-Tune BERT for Text Classification》论文笔记

最新推荐文章于 2024-05-15 17:32:32 发布

凯子要面包

最新推荐文章于 2024-05-15 17:32:32 发布

阅读量1.4k

点赞数 1

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/weixin_44815943/article/details/123897952

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文探讨了三种优化Bert模型的方法：1) 直接FineTune；2) 领域内预训练后再FineTune；3) 多任务FineTune。实验表明，领域预训练能提升模型性能，且使用低学习率如2e-5和特定层学习率策略可减少知识遗忘。在长文本分类中，选取首尾部分更有效，Bert_Large通常带来更好效果，仅用100个标注数据即可取得良好结果。

摘要由CSDN通过智能技术生成

方法论

作者提出三种FineTune Bert的方法：1）直接使用下游目标数据集进行FineTune；2）先在目标领域上进一步Pretraining Bert，再利用目标数据集FineTune； 3）与方法2类似，但加入了Multi-Task FineTune。

进一步预训练

已有很多研究表明，在目标领域进一步预训练预训练模型，能提升预训练模型在下游任务的表现，依据进一步预训练的数据集，可分为三类：1）预训练时，仅能使用下游目标标注数据集；2）预训练时，可以使用目标任务所在领域的大量数据，比如信用分类时，可以使用大量的金融新闻报道；3）通用语料。论文后续实验证明，进一步的领域预训练是最佳的。

Multi-Task FineTune

MT_DNN已证明 MTL 与 pretraining 技术具有互补性，因此，如果有相关数据集的条件，尽可能进行MT FineTune。

实验结果

在这里插入图片描述
长文本分类的处理，取“头+尾”的策略最佳。

在这里插入图片描述
取最后一层的输出特征，效果最佳。

在这里插入图片描述

遗忘预训练过程学习到的知识，是迁移学习面临的重要问题。通过优化的学习率策略，可以减低该问题的负面效果。实验结果表面，使用较低的学习率2e-5，比4e-4更好，注意论文使用了ULMFiT中的 “斜三角学习率” 与 “为不同层设置不同学习率”的策略， 层学习率的衰减为0.95。

在这里插入图片描述
在目标任务的训练集上进一步Pretrain，经过100K 步之后，效果最优。

在这里插入图片描述
进一步的领域预训练有助于提升效果。

在这里插入图片描述
下游任务有100标注数据表现已较优。

在这里插入图片描述
Bert_Large 能进一步提升效果。

凯子要面包

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《How to Fine-Tune BERT for Text Classification》论文笔记

方法论作者提出三种FineTune Bert的方法：1）直接使用下游目标数据集进行FineTune；2）先在目标领域上进一步Pretraining Bert，再利用目标数据集FineTune； 3）与方法2类似，但加入了Multi-Task FineTune。 进一步预训练已有很多研究表明，在目标领域进一步预训练预训练模型，能提升预训练模型在下游任务的表现，依据进一步预训练的数据集，可分为三类：1）预训练时，仅能使用下游目标标注数据集；2）预训练时，可以使用目标任务所在领域的大量数据，
复制链接

扫一扫

专栏目录