语义分割:Bidirectional Learning for Domain Adaption of Semantic Segmentation论文解读

Bidirectional Learning for Domain Adaption of Semantic Segmentation
基于双向学习的语义分割领域自适应----CVPR--2019-04-24
(Yunsheng Li is an intern at Microsoft Cloud& AI)
代码地址:https://github.com/liyunsheng13/BDL
This code is heavily borrowed from AdaptSegNet

背景:现有的比较好的分割自适应方法都是结合样本和特征自适应,样本自适应一般都采用风格迁移的方法,特征自适应采用对抗训练的方法,但是这两者的结合目前来说是固定的,即先训练好风格迁移的模型,然后就不再变动风格迁移的模型,训练特征自适应,这种方式很大程度上受限于风格迁移的迁移样本的质量,一旦风格迁移的模型失效,会极大影响后续的特征自适应;
现有解决方案:通过减少能够衡量领域差异的相关性距离或者MMD学习领域不变的特性;1、样本自适应;2、特征自适应;3、模型自适应;深度学习分割自适应的开山之作:(arXiv2016-Fcns in the wild: Pixel-level adversarial and constraint-based adaptation.);通过减小衡量两个域距离的loss实现自适应,衡量距离的MMD,或者特征分布的统计属性,均值,方差等,但是如果特征分布不是高斯的,仅仅通过这些统计属性是无法对齐的;
本文算法的创新点:1、在结合样本和特征自适应的结合点上引入bidirectional training,即样本自适应和特征自适应两个模块是联合训练的,不是一成不变的;2、在训练分割自适应模块块时引入self-supervised training(SSL);3、在样本自适应的loss中加入分割自适应模块的感知损失,通过这个损失将样本和特征自适应的模块训练糅合;
结果:在GTA5(源域,电脑游戏的逼真街景)---cityscapes(目标域,真实街景)---19类别,SYNTHIA-RAND-CITYSCAPES---cityscapes----13或者16类别,提升很多,目前是STOA;
评价指标:mIOU,Instance-aware IOU

keypoints:1、样本自适应选择Cycle-Gan算法;2、分割选择Deeplabv2-resnet101,FCN-8s--VGG16;
Advantages:
1、CBST论文(ECCV2018)Unsupervised domain adaptation for semantic segmentation via class balanced self-training也采用了SSL方式,但是没有采用样本自适应模块,总之本文采用的模块融合之前的论文极少有全采用的;
2、本文实验充分,实验了不同的分割、样本和self-supervised training的迭代次数的效果,是目前来说效果最好的算法;
3、self-supervised training 方法在样本和特征自适应的基础上进一步将源域和目标域的特征对齐了,同时该方法可以考虑用来给新来的目标域的数据打预标签;结合在线学习;
用处:领域自适应的语义分割;
未来工作:1、通过观察发现本文的算法在小物体的分割效果有提升,但是抵不上其他的一些方法,可以考虑引入一些小物体检测、分割的思路;2、可以借鉴第1篇文章,引入物体之间的结构推理提升分割效果;3、改进前端的cycle-gan的效果;
Addition:本文总结了分割自适应的改进方向:1、在对抗损失之外添加额外的损失,如对每个类别重新加权的CVPR18的Reweighted adversarial adaptation network for unsupervised domain adaptation、分开匹配的解耦表示学习的CORR17的Domain adaptation meets disentangled representation learning and style transfer,这些主要是针对分类自适应提出的,但是可以借鉴;2、在特征自适应时可以考虑对其不同layer的特征,而不是一个特定层输出的特征,ArXiv18的Learning to adapt structured output space for semantic segmentation.;3、PixDA是分类自适应,也用到了融合样本和特征自适应;4、前景和背景分别对齐的ECCV18-Effective use of synthetic data for urban scene semantic segmentation,通过目标检测的方法识别前景;

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
bi-vldoc是一种用于视觉丰富文档的双向视觉-语言建模方法。 bi-vldoc通过将视觉信息与语言信息结合起来,能够有效地处理视觉丰富的文档。传统的自然语言处理方法通常只处理文本信息,忽视了文档中的视觉元素。而bi-vldoc能够同时考虑文本和图像,并将它们作为输入进行建模,从而更全面地理解和分析文档内容。 bi-vldoc的关键思想是利用双向建模技术。它使用了两个模型:一个是基于视觉的模型,另一个是基于语言的模型。这两个模型相互配合,通过互相补充的方式提高了整体的建模效果。 基于视觉的模型主要用于从图像中提取视觉特征,并将其编码为向量表示。这些向量表示包含了图像的语义信息,能够用于理解图像中的内容。 基于语言的模型主要用于处理文本信息。它能够将文本编码为向量表示,并用于生成关于文本的预测。 在训练时,bi-vldoc使用了大量的带有标注的视觉丰富文档数据集。通过最大化真实标注的概率来训练模型,使其能够根据给定的文档内容生成正确的视觉和语言输出。 bi-vldoc在实际应用中具有广泛的应用前景。例如,在图像描述生成中,它可以根据图像内容生成相关的文本描述。在问答系统中,它可以回答关于图像内容的问题。此外,bi-vldoc还可以应用于文档分类、信息检索等领域,提供更准确和全面的分析和理解能力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值