语义分割:All about Structure: Adapting Structural Infor across Domains for Boosting Semantic Seg论文解读

All about Structure: Adapting Structural Information across Domains for Boosting Semantic Segmentation.
关于结构的一切:跨域自适应结构信息用于增强语义分割--CVPR19
(National Chiao Tung University, Taiwan)
代码地址:https://github.com/a514514772/DISE-Domain-Invariant-Structure-Extraction
This code is heavily borrowed from AdaptSegNet

背景:现有的分割自适应的方法中特征自适应和输出空间自适应存在一定的弊端,如果源域和目标域的图像视觉上差异较大时,如物体的空间布局layout,这种直接将两个域的整个特征或输出空间分布对齐很难做到;而直接图像翻译容易将具体域的信息丢失 ;
现有DA分割解决方案:通过减少能够衡量领域差异的相关性距离或者MMD学习领域不变的特性;1、样本自适应;2、特征自适应;3、模型自适应;深度学习分割自适应的开山之作:(arXiv2016-Fcns in the wild: Pixel-level adversarial and constraint-based adaptation.);通过减小衡量两个域距离的loss实现自适应,衡量距离的MMD,或者特征分布的统计属性,均值,方差等,但是如果特征分布不是高斯的,仅仅通过这些统计属性是无法对齐的;
本文算法的创新点:1、通过解耦表示学习(借鉴DRIT图像翻译的方法)将图像解耦成域无关的结构部分和域相关的纹理部分;2、仅仅对域无关的结构部分进行分割并对抗学习,使其域自适应;3、在end-to-end的框架中通过label transfer变相增加增强数据用于训练(label transfer这里指将源域图像转换成目标域的风格,但是内容不变,所以label不变,将转换后的数据进一步训练分割器);
结果:在GTA5(源域,电脑游戏的逼真街景)---cityscapes(目标域,真实街景),SYNTHIA-RAND-CITYSCAPES---cityscapes,有提升;
评价指标:mIOU,per-class IOU;mIOU是per-class IOU的平均值;

keypoints:1、分割选择Deeplabv2-resnet101,VOC12上预训练权重;2、文章假设图像的分割主要受到high-level的结构信息的影响,而low-level的纹理信息影响不大;
Advantages:
1、框架主要包含公共的卷积Ec提取域无关的结构部分,独自的卷积Eps(源域)和Ept(目标域)提取域相关的纹理部分,D是用于解码域无关部分和域相关部分的组合,例如Ec和Eps组合通过D可以重建出源域图像,T是具体的分割网络,最后还有一个判别网络;
2、与本文接近的论文NIPS-16:Domain separation networks和ECCV18:DRIT--Diverse image-to-image translation via disentangled representations. 但是本文是将图像解耦成域无关的结构信息和域相关的纹理信息,而DRIT是将图像解耦成内容信息和风格信息,同时本文在图像转换的过程中能很好的保存图像的结构信息;
3、loss包括2值交叉熵分割损失、分割输出空间的对抗损失和风格迁移的对抗损失借鉴LSGAN(ICCV17)和patch判别(CVPR17:conditional adversarial networks)中的相关对抗损失、D的解码器的重建损失借鉴的李飞飞的论文ECCV16:Perceptual losses for real-time style transfer and super-resolution.中的感知损失、风格迁移中的损失还包括域无关的结构的感知损失和域相关的纹理的感知损失,其中结构的感知损失也是借鉴的李飞飞的即通过L1计算VGG的不同层的特征距离,而纹理感知损失是借鉴ICCV17的Arbitrary style transfer in realtime with adaptive instance normalization.中的损失,是通过VGG的不同层的channel-wise的均值差异计算;label-transfer的损失就是迁移后的图像的分割损失;
4、最终的实验中还有相关消融实验,只在源域上训练、加上分割输出空间自适应(只有分割loss和输出空间的对抗损失)、加上解耦的和迁移的损失但是没有label-transfer的损失、全部损失;
5、最后的客观结果显示本文算法在road、sidewalk、sky、
building等类别上提升明显,可能是这些类别的物体不同域的主要差异就是纹理上的差异,而结构差异很小,因此通过本文的解耦只在结构上自适应提升就很有针对性,而person、train这些类别的物体不同域的差异较大,本文算法提升不高,这有点像是前景物体提升不高,背景类别提升明显,参见总结得第6篇文章得结论;
6、Ec和T用的SGD优化,其他的用的Adam;学习率的初始值设置也是稍有差别;
用处:领域自适应的语义分割,自我感觉如果项目中遇到的分割物体不同域之间的差异主要是纹理上的差异,如sidewalk、sky这类的可以考虑优先使用本文算法;
未来工作:1、给像素级别的视觉自适应任务起到指示作用;
Addition:现有的DA方法主要分成distribution alignment(特征、输出空间自适应), image translation(样本自适应), and label transfer(风格迁移后的样本加入训练,作为补充的增强样本),本文的DA现状总结比较好,放在了一个表格中;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值