迁移学习

xinming_365

于 2020-10-07 12:59:34 发布

阅读量784

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/xinming_365/article/details/108949309

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

按照学习方法可以将迁移学习分为下面的几大类

基于样本的迁移学习
基于特征的迁移学习
假设源域和目标域的特征不在一个空间。通过一些办法变换到一个特征空间，从而特征变得相似
基于模型（参数）的迁移学习
神经网络的结构可以直接迁移，例如finetune，就是模型参数迁移
基于关系的迁移学习

迁移学习的问题，有两个基本的概念：
领域（Domain）和任务（Task）
领域是进行学习的主题，包括数据和生成这些数据的概率分布。D表示domain，P表示概率分布
迁移过程，涉及到源域（source domain）和目标域（target domain）。源域指的是有知识，有大量数据标注的领域，是我们要迁移的对象。而目标域是我们最终赋予知识，赋予标注的对象。

任务是学习的目标，分为标签和标签对应的函数。

迁移学习的思路

开发算法最大限度地利用有标注的领域的知识，来辅助目标领域的知识获取和学习。

核心是寻找源领域和目标领域之间的相似性，并加以合理利用。如何度量和利用这种相似性？

相似性度量

下面列出了集中常见的距离

欧式距离
闵可夫斯基距离
马氏距离

还有几种相似度：

余弦相似度
互信息
皮尔逊相关系数
Jaccard相关系数
KL散度
$D_{KL} (P || Q) = \sum_{i=1} P(x) log \frac{P(x)}{Q(x)}$
注意KL散度衡量两个概率分布的距离，是一个非对称距离，即 $D_{KL}(P|| Q) \neq D_{KL}(Q||P)$
JS距离

几种度量准则

最大均值差异 MMD
最大均值差异（Maximum mean discrepancy）是迁移学习中使用频率最高的度量。MMD度量在再生核希尔伯特（Reproducing Kernel Hilbert Space，RKHS）空间中两个分布的距离，是一种核学习方法。例如两个随机变量MMD的平房距离为：
$MMD^2 (X,Y) = || \sum_{i=1}^{n_1} \phi(x_i) - \sum_{j=1}^{n_2} \phi(y_j) ||$
Principal Angle
A-distance
Hilbert-Schimidt Independence Criterion
Wasserstein Distance
该距离在一个度量空间 $\rho)$ 上定义，其中 $\rho$ 表示集合M中两个实例 $x$ 和 $y$ 的距离函数，比如欧几里得距离。两个概率分布P和Q之间的p-th Wasserstein distance可以被定义为
$W_p(P,Q) = \left( inf_{\mu \in \Gamma(P,Q) } \int \rho(x,y)^p d \mu(x,y) \right) ^{1/p}$
其中 $\Gamma$ 是集合 $M\times M$ 内所有的以P和Q为边缘分布的联合分布。