[预训练语言模型专题] 十分钟了解文本分类通用训练技巧

最新推荐文章于 2021-09-08 11:48:48 发布

yang191919

最新推荐文章于 2021-09-08 11:48:48 发布

阅读量670

点赞数 1

分类专栏：朴素人工智能文章标签：大数据机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang191919/article/details/106141225

版权

欢迎大家来到预训练语言模型的专题系列分享，本篇推送是该专题系列的第三篇。在前两篇推送[萌芽时代]，[风起云涌]中，我们分享了该领域的奠基文章以及声名鹊起却生不逢时的ELMo模型，本期我们带来的文章将会让大家了解文本分类的一些通用技巧，希望大家看完后炼丹技术都能更上一层楼！

同时感谢清华大学自然语言处理实验室整理的体系图，我们将沿此脉络前行，探索预训练语言模型的前沿技术，本期的第一篇文章处于图中绿色框内，另一篇为课外阅读。红色框内的论文在前几期中介绍，大家有兴趣的可以前去一看。

Universal Language Model Fine-tuning for Text Classification (2018)

前几期介绍的大多是模型或结构，而这篇文章由 Jeremy Howard 和 Sebastian Ruder 发表于2018年，介绍的是文本分类中语言模型的通用训练技巧。其中的一些技巧，吴老师和我在kaggle 的jigsaw 文本分类比赛中也有应用，并在比赛中拿到了金牌。在未来的推送中，可能还会有详细介绍。

这篇文章认为，目前语言模型在finetune时经常会过拟合到小数据集上，而且容易导致灾难性遗忘。相比于CV模型，NLP模型层数较少，所以需要更多的训练技巧来使其表现更好。而他们在本文中提出了fine-tuning 语言模型的关键技术 ULMFiT，可以大大地提高六个文本分类任务的效果，并且用更少的数据训练就可以达到相当的效果，加强了泛化能力。

首先介绍下ULMFiT的总体框架。之前的很多论文提出的都是预训练 + finetune 两个阶段的训练，而本文提出使用三阶段训练。

第一个阶段，首先在一个很庞大的通用领域无关语料上&#

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[预训练语言模型专题] 十分钟了解文本分类通用训练技巧

欢迎大家来到预训练语言模型的专题系列分享，本篇推送是该专题系列的第三篇。在前两篇推送[萌芽时代]，[风起云涌]中，我们分享了该领域的奠基文章以及声名鹊起却生不逢时的ELMo模型，本期我们带来的文章将会让大家了解文本分类的一些通用技巧，希望大家看完后炼丹技术都能更上一层楼！同时感谢清华大学自然语言处理实验室整理的体系图，我们将沿此脉络前行，探索预训练语言模型的前沿技术，本期的第一篇文章处于图中绿色框内，另一篇为课外阅读。红色框内的论文在前几期中介绍，大家有兴趣的可以前去一看。Universa.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。