语义分割:Effective use of synthetic data for urban scene semantic segmentation论文解读

Effective use of synthetic data for urban scene semantic segmentation
通过高效利用合成数据用于城市场景语义分割---ECCV18
(Australian Centre of Excellence for Robotic Vision)

背景:现有的分割自适应的方法中特征自适应和输出空间自适应存在一定的弊端,首先现有得自适应方法需要额外得目标域得数据(即使没有标注),当实际项目中得模型遇到从未出现得模态数据就会出现问题;其次现有得方法对分割得前景和背景物体统一对待,这也会带来问题,因为domain shift对前景和背景带来的影响是不同的 ;
现有DA分割解决方案:通过减少能够衡量领域差异的相关性距离或者MMD学习领域不变的特性;1、样本自适应;2、特征自适应;3、模型自适应;深度学习分割自适应的开山之作:(arXiv2016-Fcns in the wild: Pixel-level adversarial and constraint-based adaptation.);通过减小衡量两个域距离的loss实现自适应,衡量距离的MMD,或者特征分布的统计属性,均值,方差等,但是如果特征分布不是高斯的,仅仅通过这些统计属性是无法对齐的;
本文算法的创新点:1、根据前景和背景分别设置分割模型,前景用基于检测的mask-rcnn模型分割,背景采用deeplab像素级别的分割;2、现有的GTA5、SYNTHIA等数据集鲜有instance-level的标注,都是pixel-level的标注,本文根据一定的工具构造VEIS实例级别的标注,用于训练mask-rcnn模型;3、本文根据GTA5训练deeplab,VEIS训练mask-rcnn,然后用这两个模型给cityscapes等目标域数据打pseudo-label,然后在继续训练deeplab模型得到最终的两个模型,有点类似于第3篇论文中的self-supervised training;
结果:在GTA5(源域,电脑游戏的逼真街景)---cityscapes(目标域,真实街景),SYNTHIA-RAND-CITYSCAPES---cityscapes,有提升;本文的实验很充分,对比了deeplab模型在不同的合成数据集上训练后到cityscapes数据上,也对比了多种方法的结果;
评价指标:mIOU,per-class IOU;mIOU是per-class IOU的平均值;

keypoints:1、本文的重要算法流程就是需要对前景和背景不同处理,前景用基于检测的mask-rcnn,检测方法对shape比较敏感,背景使用基于像素级别分割的deeplab;2、本文的基本假设是合成数据中前景物体(如person、rider、motorbike等)的shape信息更加逼真,texture纹理特性不真实,因此需要基于检测的方法,而背景物体(如wall、building、sky等)主要是texture特性很逼真,如sky这些只有纹理,没有具体的shape,因此需要基于像素级别的分割;
Advantages:
1、mask-rcnn使用的detectron框架,backbone是ResNeXt-101-FPN,VGG16-deeplab(Large FOV)使用的是论文中的结构,没有任何改变;
2、介绍了现有的主要合成数据(GTA5是从游戏中得到的数据,类比同cityscapes-19类;VIPER也是跟GTA5相同的游戏中得到的数据,但是覆盖更广泛的天气条件场景,标注也很多样,有检测、分割、跟踪、3D场景布局等,但是label和cityscape有差别;SYNTHIA下的SYNTHIA-RAND-CITYSCAPES的数据集没有cityscape的train, truck and terrain类别的标注,因此对比时有些论文是比较16类,有的甚至只有13类的对比实验;Cityscapes来自50个城市的真实数据集;CamVid是车载摄像机采集的图像,32类别,3/4数据是白天,1/4数据是傍晚);
3、最后融合deeplab和mask-rcnn的结果时类似于全景分割;
4、最后训练一个分类器对前景和背景做实验,证实了合成数据中前景物体中shape比texture重要,背景中texture重要;用处:领域自适应的语义分割
未来工作:1、本文方法并没有用Domain Adaption的相关技术,可以考虑将DA的方法融合进来;
Addition:针对像素级标注比较难获取的方法,现有方法有弱监督和利用合成数据,其中大部分的弱监督方法都是关注前景物体,将所有背景类看成一个实体,然而这样对有些场景是不利的,如自动驾驶场景需要背景类的精确分割,road、grass、sky等,目前为止只有论文CVPR17:Bringing background into the foreground: Making all classes equal in weakly-supervised video semantic segmentation.考虑了多个背景类的弱监督方法,对背景类分割比较好,但是和全监督差距很大,同时前景分割也不好;利用合成数据的就是一些Domain Adaption方法,论文ICCV17:No more discrimination: Cross city adaptation of road scene segmenters.不仅考虑全局对齐,还考虑了具体类别的统计、论文arXiv17:Road: Reality oriented adaptation for semantic segmentation of urban scenes.基于蒸馏的特征正则化、论文ICCV17:Curriculum domain adaptation for semantic segmentation of urban scenes.累计风格学习在整幅图上和超像素上对齐label分布;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值