论文笔记（How to Fine-Tune BERT for Text Classification?）

最新推荐文章于 2024-05-15 17:32:32 发布

东街流浪猫

最新推荐文章于 2024-05-15 17:32:32 发布

阅读量1.5k

点赞数

分类专栏：论文笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45642184/article/details/123914122

版权

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一微调与预训练

你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，你就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training。

用别人的参数、修改后的网络和自己的数据进行训练，使得参数适应自己的数据，这样一个过程，通常称之为微调（fine tuning).

二论文引言

文本分类是自然语言处理中的一个经典问题。任务是为给定的文本序列分配预定义的类别。一个重要的中间步骤是文本表示。另外，大量研究表明，在大型语料库上预先训练的模型有利于文本分类和其他NLP任务，这可以避免从头训练新模型。虽然Bert在许多自然语言理解（NLU）任务中取得了惊人的成绩，但其潜力尚未得到充分挖掘。很少有研究能进一步提高BERT以提高目标任务的性能。在本文中，我们研究如何在文本分类任务中最大限度地利用BERT。我们探索了几种微调BERT的方法，以提高其在文本分类任务中的性能。

三论文贡献

BERT基本模型包含一个编码器，带有12个变压器块、12个自我注意头，隐藏大小为768。BERT接受不超过512个令牌的序列的输入，并输出序列的表示。序列有一个或两个段，序列的第一个标记始终是[CLS]，其中包含特殊分类嵌入，另一个特殊标记[SEP]用于分离段。对于文本分类任务，BERT将第一个标记[CLS]的最终隐藏状态h作为整个序列的表示。在BERT顶部添加一个简单的softmax分类器，以预测标签c的概率：

（1）文中提出了一种对预训练的BERT模型进行微调的通用解决方案，包括三个步骤：（1）进一步对任务内训练数据或域内数据进行预训练；（2）如果有多个相关任务可用，可选择微调多任务学习；（3）对目标任务进行微调。

（2）还研究了目标任务的BERT微调方法，包括长文本预处理、分层选择、分层学习率、灾难性遗忘、以及低水平的学习问题。

（3）在七个广泛研究的英文文本分类数据集和一个中文新闻分类数据集上取得了最新的研究成果。

四实验结果

（1）研究不同的微调策略

BERT的每一层捕获输入文本的不同特征。研究了不同层次特征的有效性。然后，对模型进行微调，并记录测试错误率的性能。下图显示了微调不同层的BERT的性能。来自最后一层BERT的性能最好。因此，我们将此设置用于以下实验。

灾难性遗忘（McCloskey and Cohen，1989）通常是迁移学习中的一个常见问题，这意味着在学习新知识的过程中，预先训练好的知识会被抹去。因此，我们还研究了伯特是否患有灾难性遗忘问题。作者用不同的学习率微调BERT，IMDb上的错误率学习曲线如图2所示。最后发现，较低的学习率，如2e-5，是必要的，使伯特克服灾难性遗忘问题。由于4e-4的积极学习率，训练集无法收敛。

下图显示IMDb数据集上不同基本学习率和衰减因子（见等式（2））的性能。我们发现，将较低的学习率分配给较低的层会有效地进行微调，合适的设置是ξ=0.95和lr=2.0e-5。

（2）调查进一步的预训练

通过有监督学习对BERT进行微调，可以通过无监督蒙面语言模型和下一句预测任务对训练数据进一步预训练BERT。将调查进一步的预培训的有效性。在下面的实验中的微调阶段使用上述描述中的最佳策略。主要包括在任务范围内进行进一步的预培训，领域内和跨领域进一步预培训。最后发现，几乎所有进一步的预训练模型在所有七个数据集上都比原来的BERTbase模式表现得更好。

（3）多任务微调

作者分别在七个英语分类数据集上对官方的无基础权重和进一步预训练的权重进行了实验。为了对每个子任务获得更好的分类结果，在一起微调之后，我们以较低的学习率对各个数据集上的额外步骤进行微调。对于基于BERT的多任务微调，效果得到了改善。然而，多任务微调似乎没有帮助BERT-CDPT和AG。多任务微调和跨领域预训练可能是替代方法，因为BERT-CDPT模型已经包含丰富的领域特定信息，并且可能不需要多任务学习来提高相关文本分类子任务的泛化能力。

五结论

在本文中，我们进行了大量的实验来研究文本分类任务的不同微调方法。有一些实验发现：1）BERT的顶层对文本分类更有用；2）通过适当的分层递减学习率，可以克服灾难性遗忘问题；3）在任务和领域内，进一步的预培训可以显著提高其绩效；4）预先的多任务微调也有助于单任务微调，但其益处小于进一步的预训练；5）伯特可以用小数据改进任务。基于以上发现，我们在八个广泛研究的文本分类数据集上实现了最先进的性能。在未来，我们将探索更多关于BERT如何工作的见解。