神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型

最新推荐文章于 2024-02-26 22:00:48 发布

TimsonShi

最新推荐文章于 2024-02-26 22:00:48 发布

阅读量472

点赞数

分类专栏：神经翻译笔记文章标签：预训练迁移学习

本文链接：https://blog.csdn.net/xacecaSK2/article/details/106111006

版权

本文介绍了迁移学习在NLP中的应用，包括多任务学习、顺序迁移学习和领域适配。重点讲解了预训练模型ULMFiT和ELMo，它们在词向量表示上引入了上下文信息，提升了模型性能。通过微调和特征提取，这些模型在不同任务上展示了良好的泛化能力。

摘要由CSDN通过智能技术生成

神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型

本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概念，以及BERT出现之前NLP领域两个重要的预训练模型ULMFit和ELMo

迁移学习

本节完全来自于Sebastian Ruder博士论文的第三章。原文一共有90页，本文作为转记，完全覆盖原文的所有内容有些困难，所以只能有所取舍——例如原文引用了大量相关工作，本文由于篇幅的限制，只能通通略去，因此强烈建议有兴趣的朋友也阅读原文，顺藤摸瓜

在经典的有监督学习中，如果要为某个任务或某个领域 $A$ 训练模型，一般会假设我们对此任务/领域有足够数据，而且也只能预期模型在同样的任务/领域上能够取得不错的效果——也就是说，前提假设是数据都是独立同分布（i.i.d.）的。如果任务或者领域变了，就要重新收集数据，重新从头训练模型。如果新的任务/领域没有足够数据，传统的有监督学习方法就不再适用，这时就需要迁移学习的帮忙，因为这种方法可以把相关任务/领域（称为源任务/源领域）的知识提取出来，应用在目标任务/目标领域上。通常情况下，我们假设对目标任务/领域，有少量有标签数据，或者大量无标签数据

为了更简洁的描述，可以引入一些符号定义和例子。记领域为 $\mathcal{D}$ ，由特征空间 $\mathcal{X}$ 和该特征空间上的边缘概率分布 $P (X)$ 组成，其中 $\{x_1, \ldots, x_n\} \in \mathcal{X}$ 。以文档分类问题为例，如果使用词袋模型， $\mathcal{X}$ 就是所有文档表示组成的空间， $x_i$ 是第 $i$ 个文档的向量表示， $X$ 是一个随机变量，表示用来训练的文档样本集合。即 $\mathcal{D}$ 可以表示为一个元组

$\mathcal{D} = \{\mathcal{X}, P(X)\}$

对给定的领域 $\mathcal{D}$ ，任务 $\mathcal{T}$ 包含一个标签空间 $\mathcal{Y}$ 、一个先验分布 $P (Y)$ 和一个条件概率 $P (Y ∣ X)$ ，其中条件概率通常从训练数据中学到。仍以分档分类问题为例，此时 $\mathcal{Y}$ 是所有可能的标签组成的集合，即 $\mathtt{\{True, False\}}$ 。所以 $\mathcal{T}$ 也可以表示为一个元组