MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation 阅读笔记

论文介绍了掩膜图像一致性(MIC)模块,用于增强无监督域自适应(UDA)中上下文关系的学习。在目标域数据上,通过随机掩蔽图像补丁,网络必须利用上下文来推断被屏蔽区域的预测,从而提高模型在处理具有相似视觉外观类别的准确性。MIC可以应用于多种视觉识别任务,如语义分割、图像分类和目标检测,显著提升UDA性能。
摘要由CSDN通过智能技术生成

论文地址:

MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation (thecvf.com)

代码地址: lhoyer/MIC: [CVPR23] Official Implementation of MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation (github.com)

MIC:用于上下文增强域自适应的掩膜图像一致性

摘要: 在无监督域自适应(UDA)中,在源数据(如合成)上训练的模型在不访问目标注释的情况下适应目标数据(如现实世界)。大多数以前的UDA方法都难以处理在目标域上具有相似视觉外观的类,因为没有可用于学习轻微外观差异的基础真理。为了解决这个问题,我们提出了一个掩蔽图像一致性(MIC)模块,通过学习目标域的空间上下文关系作为鲁棒视觉识别的额外线索来增强UDA。MIC增强了掩膜目标图像的预测之间的一致性,其中随机补丁被保留,而伪标签是由指数移动平均教师基于完整图像生成的。为了最小化一致性损失,网络必须学会从被屏蔽区域的背景中推断其预测。由于其简单和通用的概念,MIC可以集成到各种UDA方法中,用于不同的视觉识别任务,如图像分类、语义分割和目标检测。MIC显著提高了不同识别任务的最先进性能,包括从白天到黑夜,从晴朗到恶劣天气的UDA。例如,MIC在GTA→cityscape和VisDA-2017上分别取得了75.9 mIoU和92.8%的前所未有的UDA性能,这相当于比之前的技术水平提高了+2.1和+3.0个百分点。该实现可从https://github.com/lhoyer/MIC获得。

1. 介绍

为了训练最先进的神经网络进行视觉识别任务,大规模的注释数据集是必要的。然而,收集和注释过程可能非常耗时和繁琐。例如,对单幅图像进行语义分割的注释可能需要一个多小时[11,77]。因此,利用现有的或模拟的数据集是有益的,因为它们更容易注释。然而,在这样一个信息源上训练的网络当应用于实际目标数据集时,数据集通常表现较差,因为神经网络对域间隙很敏感。为了缓解这个问题,无监督域自适应(UDA)方法使用未标记的目标图像使网络适应目标域,例如,使用对抗性训练[22,29,66,84]或自训练[32,33,83,90,110]。

图1所示。(a)以前的UDA方法,如HRDA[33],在未标记的目标域上与类似的类作斗争。在这里,人行道的内部被错误地分割为道路,可能是由于当地的模糊外观。(b)提出的掩膜图像一致性(MIC)增强了上下文关系的学习,以考虑额外的上下文线索,如前景中的路边。通过MIC,调整后的网络能够正确地分割人行道。(c) MIC可以插入大多数现有的UDA方法。它增强了被屏蔽目标图像的预测与原始图像伪标签的一致性。因此,训练网络可以更好地利用目标域上的上下文线索。进一步的细节如图3所示。

在过去几年中,UDA方法取得了显著进展。然而,与监督训练相比,仍然存在明显的性能差距。一个常见的问题是,在目标领域(如道路/人行道或行人/骑手)上具有相似视觉外观的类会混淆,因为没有可用于学习的地面真相监督轻微的外观差异。例如,图1中人行道的内部被分割为道路,可能是由于相似的局部外观。为了解决这个问题,我们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值