语义分割:Learning to Adapt Structured Output Space for Semantic Segmentation论文解读

Learning to Adapt Structured Output Space for Semantic Segmentation
基于学习的语义分割输出空间结构的自适应--CVPR18--spotlight(ranked 3rd in the VisDA Challenge--Domain Adaptation ICCV2017 Workshop Challenge)
(NEC Laboratories America 2University of California, Merced)
代码地址:https://github.com/wasidennis/AdaptSegNet

背景:现有的分割自适应中的很大一部分采用特征自适应的方法,该方法在分类自适应中得到广泛应用并得到很好的效果,但是在像素级别的理解任务中,会变得难以学习,如分割自适应任务中,由于视觉上的差异,如光照、场景布局、不同的天气,城市、一天的不同时间采集的图像,这些图像在特征层上的差异明显,通过特征自适应的对抗学习的方式不太好,因为对抗判别网络很容易判别特征的来源域,难以训练,而分类不在乎什么特征的平移不变性;
现有解决方案:通过减少能够衡量领域差异的相关性距离或者MMD学习领域不变的特性;1、样本自适应;2、特征自适应;3、模型自适应;深度学习分割自适应的开山之作:(arXiv2016-Fcns in the wild: Pixel-level adversarial and constraint-based adaptation.);通过减小衡量两个域距离的loss实现自适应,衡量距离的MMD,或者特征分布的统计属性,均值,方差等,但是如果特征分布不是高斯的,仅仅通过这些统计属性是无法对齐的;
本文算法的创新点:1、在分割的输出空间上对抗学习,因为例如不同天气,城市采集的图片会在光照等差异明显,但是输出的label不会受到光照等的影响,更容易学习自适应;2、融合multi-level的特征自适应,因为时间和空间效率,文章对Conv4和5层采用自适应;
结果:在GTA5(源域,电脑游戏的逼真街景)---cityscapes(目标域,真实街景),SYNTHIA-RAND-CITYSCAPES---cityscapes,有提升,但是效果没有第2、3文章好;Cross-city的实验(ICCV17-No more discrimination: Cross city
adaptation of road scene segmenters. );
评价指标:mIOU

keypoints:1、分割选择Deeplabv2-resnet101,特征图原来的1/8,接上两个空洞卷积层后,再接上ASPP,上采样后分割输出;2、判别器借鉴DCGAN的,去掉BN,因为batch_size不高;
Advantages:
1、对抗损失和分割损失的比例做了实验,特征自适应对该比例比较敏感,输出自适应还好,因为特征图比较好区分;
2、该方法对小物体效果不好;
3、当源域和目标域的label差距不大时,对抗损失的比例需要适当减小,减轻训练难度;
4、backbone比较深的模型,如resnet101比VGG16要好;
5、文章做了在目标域有标注,正常训训Deeplabv2-resnet101的结果,可以计算自适应的方法和全监督的结果(精度的上边界)的gap,其中GTA5 to Cityscapes的19个类别,resnet101和vgg16结果分别是65.1/60.3;SYNTHIA to
Cityscapes的13个类别,分别是71.1/59.5;
6、因为仅仅输出空间的自适应在反传时对low-level的监督意义减少,因为才有了Multi-level的特征自适应,相当于对分割网络的low-level的卷积层起到监督训练的作用;
用处:领域自适应的语义分割;
未来工作:1、给像素级别的视觉自适应任务起到指示作用;
Addition:现有的DA方法还有结合特征表示和类别受限的CNN方法ICCV15的Constrained convolutional neural networks for weakly supervised segmentation、基于类别class-wise的对抗学习和label transfer的方法ICCV17-No more discrimination: Cross city adaptation of road scene segmenters

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
“你只需要90000个参数即可适应光:一款轻量级的Transformer” Light:一款轻量级的Transformer是指在模型参数数量较少的情况下,实现了对光照的适应能力。一般来说,Transformer模型通常需要巨大的参数数量来实现高质量的自然语言处理任务。然而,对于特定的任务,比如对光照的适应,研究人员最近提出了一种轻量级的Transformer模型,只需要90000个参数即可实现。 这个模型的轻量级设计主要集中在两个方面:模型架构和参数数量。首先,模型架构方面,轻量级Transformer采用了一种精简的结构,去掉了一些传统Transformer中的冗余模块。其次,在参数数量方面,研究人员通过对参数维度和层数进行有效的优化,实现了模型的轻量化。因此,这个轻量级Transformer仅需要90000个参数,就能够达到对光照的适应能力。 这个轻量级Transformer的适应光照的能力主要体现在两个方面:特征提取和模型自适应。首先,在特征提取方面,轻量级Transformer能够从输入的光照图像中提取出有效的特征表示,用于后续的任务处理。其次,在模型自适应方面,轻量级Transformer能够动态地学习并调整网络参数,从而更好地适应不同光照条件下的输入数据,提高模型的性能。 总之,通过轻量级的设计和精简的参数数量,这个仅需要90000个参数的轻量级Transformer模型能够有效地适应光照。这种模型设计的优势在于在保持良好性能的同时,减少了模型的复杂性和计算资源的需求,为光照相关任务的研究和应用提供了一种新的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值