目录
1.背景:
基于
CNN
的网络模型需要大量的标注来覆盖场景的所有可能的变化,尤其当训练(
源
)
图像和测试
(
目标
)
图像之间存在较大的差异时,标注的工程量巨大。根据观察, 源域和目标域图像虽然在外观差异比较大,但是他们的空间布局和局部上下文信息相似性比较高。
https://www.cnblogs.com/ethan-tao/p/16213986.html 代码分析
2.本文创新点
创新点1:
基于对抗学习,提出了像素级语义分割的域自适应方法模型:
![](https://i-blog.csdnimg.cn/blog_migrate/5367fc92afa1fde3b1710514b11f3078.png)
首先使用源域图像
I
s
(
有标注
)
训练优化分割网络
G
,并输出
P
s
。然后使用分割网络
G
预测目标域图像 I
t
(
不带标注
)
的输出
P
t
。我们的目标是使源图像和目标图像的分割预测
P
s
和
P
t 彼此接近,所以我们使用这两个预测结果作为鉴别器 D
的输入,以区分输入是来自源域还 是目标域。因为存在对抗损失 L
adv
,反向传播来自
D
到
G
的梯度,使得分割网络
G
在目标域中生成与源预测相似的分割分布。
创新点 2:
不同于以往在特征层进行调整方法,这篇文章在输出空间进行适配,可以有
效地对齐源域和目标域图像的场景分布和局部上下文信息。
创新点 3:
采用多层对抗学习机制来适配分割模型不同层的特征,这可以提升性能。上
图中,加入两级
DA
。
3.损失函数
下面是单级自适应模型各自训练的损失函数:
![](https://i-blog.csdnimg.cn/blog_migrate/c650424af8a0c3ee3e957bb2fd383a73.png)
分割网络
G
的训练:
Ys
是
ground truth
标注,
Ps
是输出。
鉴别器
D
的训练:
z=0
,表示来自目标域,
z=1
表示来自源域。
为了
Ps
和
Pt
的分布更加接近,对抗损失:
![](https://i-blog.csdnimg.cn/blog_migrate/ccfea057e32722a9dc0a3c0ce645a877.png)
![](https://i-blog.csdnimg.cn/blog_migrate/22a4c63d561958b0e415a8f375f2e905.png)
多级自适应模型进行一定的修改即可。
4.实验:
训练数据集:
GTA5
和
SYNTHIA
数据集的
synthetic
图像
测试数据集:测试集用的是
Cityscapes
数据集的
real-word
图像
以及还在还在
Cross-City
数据集上做了跨城市的任务实验。所提出的方法在准确性和视觉质量方面优于最先进的方法
![](https://i-blog.csdnimg.cn/blog_migrate/e3620a08f4e1f500990cad9ab0c2818e.png)