目录:
一、论文背景
二、相关知识
三、模型结构及训练
本篇文章主要是对论文“Universal Language Model Fine-tuning for Text Classification”的理解,该论文主要提出了一个针对NLP任务的迁移学习的模型及训练过程。
先对论文背景做一个简单介绍。
一、论文背景
1、什么是迁移学习?为什么要进行迁移学习?
迁移学习(Transfer learning) 就是把已经训练好的模型参数迁移到新的模型来帮助新模型训练。在机器学习中,我们一个主要的假设是训练和未来的数据都是在同一个特征空间当中,并且有同样的分布。而实际上,这个假设可能并不成立。比如,我们在一个感兴趣的领域有一个分类任务,但是我们只在另一个领域有充足的数据,而这些数据可能处于不同的特征空间,或者不同的分布。如果我们能够将后者的知识成功迁移到前者的任务当中,就能极大改进学习的效率。
2、迁移学习分类。
举例:给定源领域是电影评论,目标领域是电子产品评论,源任务是语言模型,如果目标任务是情感分类,那么则是归纳迁移学习,目标任务还是语言模型,则为直推式迁移学习。(本文采用的是归纳迁移学习)
3、作者为什么提出针对NLP的迁移学习?
迁移学习在计算机视觉领域取得了重大成功,但在NLP领域尚未得到很好的应用。作者指出