迁移学习可以在动态变化的普适计算环境中自适应地构建个性化学习模型,并且不依赖于大量的人工标注和强大的计算资源。
使用与task没有直接关系的data,辅助进行task任务的执行
data分为两种:
target data:与task直接相关
source data:与task没有直接关系
有lable的target data和source data:fine-tuning,需要做一些事情使得新的model和旧的model相似。
旧模型使用相关性不大但数据量庞大的数据进行训练。然后,可以将某些旧模型的layer进行copy到新的model里面去,新的model只需要训练没有copy的layer,用以保证,当使用很少的数据的时候,只需要训练很少的参数(layer transfer)
transfer+fine-tuning效果会比较好。同时只是transfer的话,层数越多效果越差。
不同的task里面copy的layer是不一样的。
wjd迁移学习
解决的问题:数据的个体差异性大、特征的渐进变化性强、类别的非平衡性高。
研究内容:基于情境相似性的分层迁移方法、基于特征对齐的动态迁移方法、基于类别适配的平衡迁移方法
迁移学习的目标:将某个领域或任务上已经学习得到的知识,迁移应用于不同但相关的领域或任务中。(利用有标记但分布不同的源域数据帮助目标域建立精准的学习模型)
现有的迁移学习方法分为:
- 实例权重法:提高两个领域中具有公共特征或相似性较高的样本的权重,从而使得模型可以学习到领域相似度信息。
- 特征变换法:将源域和目标域的样本特征进行映射,从而可以在一个公共的特征空间上,对二者的数据分布距离进行最小化。
基于情景相似性的分层迁移学习方法
- 使用多数投票法,从源域训练一个分类器,得到高置信度的目标域伪标签。
- 根据得到的目标域伪标签,最小化源域和目标域的同一个类别的类内距,最大化不同类别的类间距,从而将源域和目标域的每一个类别都变换到不同的特征空间里。
- 用变换后的源域和目标域数据,训练新空间下的分类模型,得到更加精准的目标域数据标签。
- STL利用集成学习的大多数投票策略获得目标领域的伪标签。
- STL利用最大均值差异计算分层距离,并以此为依据,进行类内迁移。
- STL进行二次标定(利用变换后的源域和候选集数据,学习得到余部数据的标记),完成全部迁移工作。
大多数投票策略旨在利用群体的只是来进行知识迁移,通常将在源域上学习到的分类结果进行集成。
基于特征对齐的动态迁移方法DDA
定量评估迁移学习过程中,边缘分布和条件分布的差异性。
目标:学习在目标域上的预测函数f,使得f在其上的风险最小化 (结构风险最小化原则,SRM)。
当μ—>0时,表示源域和目标域数据整体存在较大的分布差异,边缘分布的迁移更重要。
当μ—>1时,表示源域和目标域整体有较高的相似性,差异主要体现在个体差异,也就是条件概率分布的差异上。
当μ=0.5时,边缘分布和条件分布的差异被同等看待
利用领域的整体和局部性质来定量计算μ
基于流形学习的动态迁移方法MDDA
作用:消除退化的特征变换的影响。
- 用d维子空间对数据领域进行建模
- 将这些子空间嵌入到流形G中,流形核可以视为所有的d维子空间的集合。
核G可以通过矩阵的奇异值分解来有效计算。
基于深度学习的动态迁移方法DDAN
用端到端的方式直接学习特征表达和分类器,学习过程利用了一个基础网络学习可迁移特征表达,同时进行知识的动态迁移。
- 输入数据经过全连接层进行softmax分类,获得目标域标记y;
- 通过上面公式中动态迁移因子μ的计算,再次迭代进行学习
基于类别适配的平衡迁移方法BDA
核心思想:在可再生核希尔伯特空间中减小源域和目标域的概率分布差异,同时最大化数据的散度。
最终目:学习得到公式4.19中的迁移变换矩阵U
BDA根据迁移特征变换的效果,动态重构两个领域中每个类别所占的比例,然后使用分类期望最大化算法来高效地求解相应的迁移学习模型。
利用马氏距离度量边缘分布和条件分布的差异。
最大化样本的方差:以增大样本间的差异使得学习到的迁移特征变化对不同的样本更有判别性。
基于线性约束的高效迁移学习加速器EasyTL
优点:概念和实现比较简单,不需要学习和训练结算,不需要进行模型选择和超参调试;时间复杂度小;