《MUTUALMEAN-TEACHING:PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATI ON ONPERSON》ICLR2020

最新推荐文章于 2023-03-16 18:12:10 发布

Love向日葵的兮兮子

最新推荐文章于 2023-03-16 18:12:10 发布

阅读量1.4k

点赞数

分类专栏：机器学习 Person ReID 文章标签：聚类机器学习

本文链接：https://blog.csdn.net/weixin_43994864/article/details/109098945

版权

Person ReID 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

聚类算法: 为无标签数据赋予伪标签

优点：

1、原理比较简单，实现也是很容易，收敛速度快。

2、当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。

3、主要需要调参的参数仅仅是簇数k。

缺点：

1、K值需要预先给定，很多情况下K值的估计是非常困难的。

2、K-Means算法对初始选取的质心点是敏感的，不同的随机种子点得到的聚类结果完全不同，对结果影响很大。

3、对噪音和异常点比较的敏感。用来检测异常值。

4、采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。

应用： 无监督方向

( 摘自https://www.jianshu.com/p/4f032dccdcef)

论文

1. ICLR2020《MUTUALMEAN-TEACHING:PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATI ON ONPERSON RE-IDENTIFICATION》

代码链接：https://github.com/yxgeee/MMT
问题： 困难样本（不同类图像非常相似）很难正确聚和，最后获得伪标签可能是个错误的噪声标签
解决办法：
为解决伪标签噪声提出一个新的Mutual Mean-Teaching (MMT) 框架，核心思想就是利用离线精炼的‘硬‘’伪标签和在线精炼的‘软‘’伪标签，以协同训练的方式对网络进行优化，在目标域中进行伪标签提炼（即利用更为鲁棒的‘软’伪标签进行在线优化）
1) 这里的"硬"标签指置信度为100%的标签，如常用的one-hot标签[0,1,0,0]，而"软"标签指置信度<100%的标签，如[0.1,0.6,0.2,0.1]。
2）如上图所示，A1与A2为同一类，外貌相似的B实际为另一类，由于姿态多样性，聚类算法产生的伪标签错误地将A1与B分为一类，而将A1与A2分为不同类，使用错误的伪标签进行训练会造成误差的不断放大。该文指出，网络由于具备学习和捕获数据分布的能力，所以网络的输出本身就可以作为一种有效的监督。然而，利用网络的输出来训练自己是不可取的，会无法避免地造成误差的放大。所以该文提出同步训练对称的网络，在协同训练下达到相互监督的效果，从而避免对网络自身的输出误差形成过拟合。在实际操作中，该文利用**"平均模型"进行监督，提供更为可信和稳定的"软"标签**

在这里插入图片描述 3）如上图所示，该文提出的"同步平均教学"框架利用离线优化的"硬"伪标签与在线优化的"软"伪标签进行联合训练。"硬"伪标签由聚类生成，在每个训练epoch前进行单独更新；"软"伪标签由协同训练的网络生成，随着网络的更新被在线优化。直观地来说，该框架利用同行网络（Peer Networks）的输出来减轻伪标签中的噪声，并利用该输出的互补性来优化彼此。而为了增强该互补性，主要采取以下措施：

对两个网络Net 1和Net 2使用不同的初始化参数；
随机产生不同干扰，例如，对输入两个网络的图像采用不同的随机增强方式，如随机裁剪、随机翻转、随机擦除等，对两个网络的输出特征采用随机dropout；
训练Net 1和Net 2时采用不同的"软"监督，i.e. “软"标签来自对方网络的"平均模型”；采用网络的"平均模型"Mean-Net 1/2而不是当前的网络本身Net 1/2进行相互监督。

4）该文提出的"同步平均教学"框架利用"硬"/“软"分类损失和"硬”/"软"三元损失联合训练，在每个训练iteration中，主要由三步组成：

通过"平均模型"计算分类预测和三元组特征的"软"伪标签；
通过损失函数的反向传播更新Net 1和Net 2的参数；
通过参数加权平均法更新Mean-Net 1和Mean-Net 2的参数。

实验结果
论文中使用K-Means聚类进行实验，在每个行人重识别任务中都对不同的伪类别数（表格中表示为MMT-伪类别数）进行了验证。发现无需设定特定的数目，均可获得最先进的结果。
在这里插入图片描述
总结

该文针对基于聚类的无监督领域自适应方法中无法避免的伪标签噪声问题展开了研究，提出使用"同步平均教学"框架在线生成并优化更为鲁棒和可信的"软"伪标签，并设计了针对三元组的合理伪标签以及对应的损失函数，在四个行人重识别任务中获得超出最先进算法13%-18%的精度。

（摘自https://zhuanlan.zhihu.com/p/117652813）

Love向日葵的兮兮子

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《MUTUALMEAN-TEACHING:PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATI ON ONPERSON》ICLR2020

K-means聚类算法: 可以为无标签数据赋予伪标签优点：1、原理比较简单，实现也是很容易，收敛速度快。2、当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。3、主要需要调参的参数仅仅是簇数k。缺点：1、K值需要预先给定，很多情况下K值的估计是非常困难的。2、K-Means算法对初始选取的质心点是敏感的，不同的随机种子点得到的聚类结果完全不同，对结果影响很大。3、对噪音和异常点比较的敏感。用来检测异常值。4、采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。应用：
复制链接

扫一扫