5-GFF: Gated Fully Fusion for Semantic Segmentation门控融合语义分割-论文阅读笔记

目前存在的问题:

  • 特征融合方法:Concatenation,add,FPN,在不测量每个特征向量的有用性的情况下,将特征图融合在一起,并在融合过程中将大量无用特征与有用的特征混合
  • 之前研究的门控用于相邻层之间的特征融合,没有考虑所有层级(Ding et al. 2018)
  • Context modeling aims to encode more global information, and it is orthogonal to the proposed GFF becasue GFF is designed for backbone level.

主要工作

1、利用双门控,融合所有层级的有用信心

2、利用金字塔池化、特征金字塔、密集连接融合信息

研究提出的Gated Fully Fusion (GFF)架构在语义分割任务中显著提升了性能,特别是在处理小/薄物体和细节信息时表现出色。

摘要:

语义分割通过对每个像素密集预测其类别,生成对场景的全面理解。深度卷积神经网络的高级特征已经在语义分割任务中证明了它们的有效性,然而高级特征的粗分辨率经常导致对小/薄物体的结果不佳,而这些物体的细节信息非常重要。很自然地,我们考虑引入低级特征来补偿高级特征中丢失的细节信息。不幸的是,简单地结合多级特征会因为它们之间的语义鸿沟而受到影响。在本文中,我们提出了一种新的架构,名为门控全融合(Gated Fully Fusion,GFF),以全连接的方式使用门控机制选择性地融合来自多个级别的特征。具体来说,每个级别的特征都通过具有更强语义的高级特征和具有更多细节的低级特征来增强,并且使用门控来控制有用信息的传播,这显著减少了融合过程中的噪声。我们在四个具有挑战性的场景解析数据集上取得了最先进的结果,包括Cityscapes、Pascal Context、COCO-stuff和ADE20K。

PS:

深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)的高级特征通常指的是在网络的较深层次中提取的特征。这些特征往往具有以下特点:

  1. 语义信息丰富:高级特征能够捕捉到图像中更抽象的概念和对象的高级属性,如物体的类别和场景的上下文信息。

  2. 空间分辨率低:由于网络中的池化(pooling)和卷积操作,高级特征图的空间分辨率通常较低,这意味着它们在描述图像细节方面的能力有限。

  3. 全局上下文感知:高级特征能够提供全局上下文信息,有助于理解图像的整体内容和结构。

  4. 对小物体和细节不敏感:由于分辨率较低,高级特征在识别图像中的小物体或细节方面表现不佳。

在语义分割任务中,高级特征的这些特性使得它们在处理大场景和识别高级概念时非常有效,但在需要精细细节的任务中,如小物体的识别或边缘的精确定位,它们的性能可能会下降。因此,研究者们通常会尝试将高级特征与低级特征(如来自网络浅层的特征,具有高空间分辨率)结合起来,以提高分割的精度和细节。GFF(Gated Fully Fusion)架构就是其中一种尝试,它通过门控机制选择性地融合多级特征,以增强特征表示并减少融合过程中的噪声。

空间分辨率(Spatial Resolution)是指图像或特征图中能够区分的最小细节或最小物体的大小。在深度学习和计算机视觉中,空间分辨率是一个重要的概念,因为它直接影响到模型对图像细节的捕捉能力。

在深度卷积神经网络中,空间分辨率的变化通常由以下几个因素决定:

  1. 卷积层:卷积操作本身不会改变特征图的空间分辨率,除非使用步长(stride)大于1的卷积,这会导致特征图的尺寸减小。

  2. 池化层:池化(Pooling)操作,尤其是最大池化(Max Pooling)和平均池化(Average Pooling),通常会减小特征图的空间尺寸,从而降低其空间分辨率

  3. 步长:卷积和池化操作中的步长决定了操作的覆盖范围,步长越大,特征图的空间尺寸减小得越快。

  4. 网络深度:随着网络深度的增加,特征图的空间分辨率通常会逐渐降低,因为每经过一层卷积或池化,特征图的尺寸都会减小。

  5. 上采样:在某些网络结构中,如U-Net或FPN(Feature Pyramid Network),会使用上采样(Upsampling)操作来增加特征图的空间分辨率,以便更好地恢复图像细节。

引言:

语义分割密集地预测图像中每个像素的语义类别,这种全面理解图像的能力对于许多基于视觉的应用非常有价值,例如医学图像分析(Ronneberger, Fischer, 和 Brox 2015)、遥感(Kampffmeyer, Salberg, 和 Jenssen 2016)以及自动驾驶(Xu et al. 2017)。然而,正如图1所示,为每个像素精确预测标签是具有挑战性的,因为像素可能来自微小或大型物体、远或近的物体,以及物体内部或物体边

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值