基于全卷积自适应网络的图像语义分割

Fully Convolutional Adaptation Networks for Semantic Segmentation基于全卷积自适应网络的图像语义分割


Yiheng Zhang †, Zhaofan Qiu †, Ting Yao ‡, Dong Liu †, and Tao Mei ‡ † University of Science and Technology of China, Hefei, China‡ Microsoft Research, Beijing, China{yihengzhang.chn, zhaofanqiu}@gmail.com, {tiyao, tmei}@microsoft.com, dongeliu@ustc.edu.cn

摘要

深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。尽管如此,收集专业的标记数据集,尤其是像素级注释的数据集,是一个极其昂贵的过程。一个吸引人的选择是呈现合成数据(例如,计算机游戏)并自动生成标记数据。但是,仅应用在合成图像上学习的模型可能会由于域转换而导致在真实图像上产生很高的泛化误差。在本文中,我们从视觉外观级别和表示级别的域自适应的角度促进了这一问题。前者将源域图像改编为看起来像是从目标域中的“样式”中提取的,而后者则尝试学习域不变的表示形式。具体来说,我们提出了全卷积自适应网络(FCAN),这是一种用于语义分割的新颖的深层架构,它结合了外观自适应网络(AAN)和表示自适应网络(RAN)。AAN在像素空间中学习从一个域到另一个域的转换,并且使用对抗性学习方式对RAN进行了优化,以最大程度地利用学习的源和目标表示来混淆域识别符。在从GTA5(游戏视频)到Cityscapes(城市街道场景)的语义分割上进行了广泛的实验,并且与最新的无监督自适应技术相比,我们的建议取得了更好的结果。更值得注意的是,我们获得了新的记录:在无人监督的情况下,BDDS(drivecam视频)的mIoU为47.5%。

Appearance Adaptation Networks (AAN)

在这里插入图片描述
图3.外观适应网络(AAN)的体系结构。给定目标图像集Xt和一个源图像xs,我们从白噪声图像开始并将其朝自适应图像xo进行调整,该自适应图像xo看起来好像是从目标域中绘制的,但包含源图像中的语义内容。预训练的CNN用于提取特征图。通过最小化xs和xo的特征图之间的距离来保留xs的高级图像内容,而通过最小化xo和Xt的特征相关性之间的距离来保持目标域的样式。
  为了更好地控制源图像xs中的语义内容,将不同的权重分配给不同的层以反映每个层的贡献。然后将目标函数表述为:
 在这里插入图片描述
其中L是要考虑进行测量的一组图层。wls是第l层的权重,Mlo和Mls是第l层在xo和xs上的特征图。通过最小化等式(1)中的欧几里得距离,期望将xs中的图像内容(高级语义信息)保留在自适应图像xo中。
  接下来,通常将一个图像的“样式”视为一种统计量度或样式,对空间信息不敏感[4]。 在CNN中,此类统计量之一是不同响应图之间的相关性。因此,可以通过下式计算层l上图像Gl的“样式”:
 在这里插入图片描述
  我们通过对目标域中所有图像的Gl进行平均,将一幅图像的“样式”扩展到一个域(目标域的Glt)。
  为了将目标域的“样式”合成为xo,我们将每一层的目标表述为:
 在这里插入图片描述
最后,将要最小化的总损失函数LAAN为:
在这里插入图片描述
其中α是权重,用于平衡源图像中的语义内容和目标域的样式。在训练中,类似于[5],AAN通过反向传播从等式导出的梯度来调整输出图像xo导致域不变的外观。(输出xo与源域xs的语义内容最相近,与目标域xt的样式最接近)。

Representation Adaptation Networks (RAN)

在这里插入图片描述
图.我们的全卷积自适应网络(FCAN)架构的概述。它由两个主要组件组成:左侧的外观适应网络(AAN)和右侧的表示适应网络(RAN)。AAN将图像从一个域转移到另一个域,因此视觉外观趋于不变。RAN通过以学习到的源表示形式和目标表示形式最大程度地混淆域区分符,以对抗性方式学习域不变表示。特别设计了扩展的Atrous空间金字塔合并(ASPP)层,以利用不同比例的区域来增强判别能力。RAN是在源图像的监督分割损失和对抗损失的基础上共同优化的。
  使用外观自适应网络,来自不同域的图像似乎来自同一域。为了进一步减少域转换的影响,我们尝试学习域不变表示。因此,表示适应网络(RAN)被设计用来跨域适应表示,这是从对抗学习的思想中衍生出来的[7]。我们RAN中的对抗原则等同于通过将学习到的源表示和target表示混淆一个域区分符D来指导两个域中特征表示的学习。具体而言,RAN首先利用共享的全卷积网络(FCN)从两个域中通过AAN提取图像或自适应图像的表示。这里的FCN模型F旨在学习跨两个域的可区分图像表示。此外,鉴别器D试图区分源表示和目标表示,其输出是对应于最终特征图中空间单元的每个图像区域的域预测。形式上,给定训练集Xs = {xis | i = 1,… ,n}在源域中,并且Xt = {xit | i = 1,…,m}在目标域中,对抗损失Ladv是所有空间单位的平均分类损失,公式为:
在这里插入图片描述
其中Z是D的输出中的空间单位数。类似于标准GAN,我们RAN的对抗训练是优化以下minimax函数:
在这里插入图片描述
  考虑到实际数据中存在许多不同大小的不同对象的事实,我们进一步考虑了多尺度表示的利用来增强对抗性学习。一种传统的多尺度策略是使用多种分辨率调整图像大小,这确实提高了性能,但要付出大量计算的代价。在这项工作中,我们扩展了Atrous空间金字塔池化(ASPP)[1]来实现这一点,如图2所示。具体地说,并行利用具有不同采样率的k个扩张的卷积层在FCN的输出上产生独立的k个特征表示,每个都有c个特征通道。然后将所有特征通道堆叠在一起,以形成具有ck通道的新特征图,然后再添加1×1卷积层和S形层,以生成最终得分图。得分图中的每个空间单位表示对应的图像区域属于目标域的概率。此外,我们同时优化了标准像素级别的分类损失Lseg,以便在有标签可用的源域中对图像进行监督分割。因此,RAN的总体目标是将Lseg和Ladv集成为:
 在这里插入图片描述

结论

我们提出了完全卷积自适应网络(FCAN)体系结构,该体系结构探索了针对语义分割的域自适应。特别地,我们从视觉外观水平和表示水平适应两个角度来研究该问题。为了验证我们的主张,我们分别在FCAN中针对每种目的设计了外观适应网络(AAN)和表示适应网络(RAN)。AAN会在一个域中渲染图像,而另一个域则具有“样式”域,从而在两个域中呈现不变的外观。RAN旨在以域对抗的方式指导表示学习,理想情况下输出域不变的表示。从游戏视频(GTA5)到城市街景场景(Cityscapes)的转移进行的实验验证了我们的建议和分析。更为引人注目的是,当将游戏视频传输到驱动摄像头视频(BDDS)时,我们获得了最新的性能。我们未来可能的工作包括两个方向。首先,将在AAN中研究更高级的技术来渲染具有另一种统计模式的图像的语义内容。其次,我们将FCAN进一步扩展到其他特定的分割场景,例如在门场景分割或人像分割中,可以轻松生成合成数据。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值