一、基础概念
1.1 源域与目标域
源域、目标域是迁移学习中的概念
- 迁移学习:即举一反三式学习,从已有的知识迁移到未知的新知识上。
- 源域 source domain:已有的知识
- 目标域 target domain:要学习掌握的未知新知识
1.2 域适应
领域自适应 domain adaption:从源域中学习在不同(但相关)的目标域上的良好性能模型时,即源域和目标域有一定差别,称领域差异
1、分类:
- 无监督域适应:即论文中提到的Unsupervised Domain Adaptation;学习样本包含一组标记的源示例,一组未标记的源示例和一组未标记的目标示例。
- 半监督域适应:在这种情况下,我们还考虑一组“小”标记的目标示例。
- 监督的域适应:所有考虑的例子都应该被标记。
2、需求:
有标签的训练数据量较小;
训练集与测试集数据分布的偏移;
3、关键点:
构建源域与目标域之间的映射关系;
二、思路分析
2.1 背景目的
行人重识别 Person ReID
Problem:
- 大规模的数据集有明显领域差异
- 人工标记工程量太大
所以:无监督领域自适应被提出解决上述问题,让在有标注的源域(Source Domain)上训练好的模型适应于无标注的目标域(Target Domain),以获得在目标域上检索精度的提升。
注:行人重识别的任务中目标域的类别数无法预知,且通常与源域没有重复,这里称之为开放集(Open-set)的无监督领域自适应任务
现有技术方案
基于聚类的伪标签法
领域转换法
基于图像或特征相似度的伪标签法
基于聚类的伪标签法:
- 先用聚类算法(K-Means, DBSCAN 等)对无标签的目标域图像特征进行聚类,从而生成伪标签
- 再用该伪标签监督网络在目标域上的学习
- 循环以上两步直至收敛
图解:
- Triplet Loss:
深度学习中的一种损失函数,用于训练差异性较小的样本,如人脸等
triplet : 三元组<a,p,n> 即:
锚(Anchor)示例、正(Positive 与a同类的样本)示例、负(Negative 与 a 不同类别的样本)示例
通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本的相似性计算,即拉近 a, p 的距离, 拉远 a, n 的距离
- Classification Loss:将检测到的对象分类为各种类别(猫,狗,飞机等)的损失
- pseudo labels:伪标签 半监督学习 用已有的标签的数据建模型给没有标签的数据,做个近似标签出来![在这里插入图片描述](https://img-blog.csdnimg.cn/20200717162248977.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NjI0ODQ2Ng==,size_16,color_FFFFFF,t_70
现有问题
初始伪标签噪声较大的情况下,模型有较大的崩溃风险
2.2 解决方案
同步平均教学:
核心思想是利用更为鲁棒的"软"标签对伪标签进行在线优化
鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据