PSPNET

Paper链接

1.Introduction

文中目前语义分割的优秀网络结构都是基于FCN的,但目前的主流算法都有一个缺陷就是缺乏一个策略来来利用全局场景信息。
对于复杂场景的分割,空间金字塔池化被广泛的应用来获得全局图像像素水平的特征。
1.提出pspnet,将复杂场景的上下文特征嵌入到基于fcn的像素预测网络中。
2.提出了深度监督的Loss函数。

2.Related work

3.Pspnet

首先观察和分析了使用Fcn的典型错误案例,这有利于pspnet的提出
3.1重要的发现
1.误匹配关系
在复杂场景理解中上下文关系是非常重要的例如飞机是在跑道或者天空中,而不会在马路上,在下图中,将船误识别成立车,这就是缺少上下文关系,因为车一般都会在马路上,很少出现在河边。
在这里插入图片描述
2.混淆分类
在ADE20K数据集中有有很多类别容易混淆分类,例如:房子,建筑物,摩天大楼,他们的外貌都很相似,在下图中,FCN将框内的一部分预测成建筑物一部分预测称摩天大楼,这个问题可以通过类别见的关系来解决在这里插入图片描述
3.不明显的类别
在场景中有很多小的类别,比如路灯或者布告牌,要找到他们是比较困难的,相反的,大的物体也可能超过FCN的感受野导致不连续的预测。在下图中,枕头是一个非常小的物体,会很难进行预测。
在这里插入图片描述
3.2金字塔池化模型
在深度神经网络中,感受野的大小可以粗略地表明我们用到多大的上下文信息。在理论上Resnet的感受野已经大于输入图像,但是在实际中的感受野是小于理论上的,特别是在更深的层。这导致很多网络不能很好的融合全局场景先验。
全局平均池化是一个很好的基准模型,它可以很好地应用于语义分割。但在复杂场景分割,全局平均池化性能是不够的。将它们直接融合成一个向量可能会失去空间关系,造成歧义。一个更强大的表达方式是将来自不同次区域的信息与这些接受域融合起来。
将金字塔池生成的不同层次的地形图进行平铺拼接,送入全连通层进行分类。该全局先验是为了去除CNN图像分类的固定大小约束而设计的。为了进一步减少不同子区域间的上下文信息丢失,提出了一个分层的全局先验,其中包含了不同规模和不同子区域间变化的信息。
在这里插入图片描述
首先,对特征图分别池化到目标size,然后对池化后的结果进行1×1卷积将channel减少到原来的1/N,这里N就为4。接着,对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的size,然后将原特征图和上采样得到的特征图按channel维进行concatenate。得到的channel是原特征图的channel的两倍,最后再用1×1卷积将channel缩小到原来的channel。最终的特征图和原来的特征图size和channel是一样的。
该结构通过采用不同大小的池内核,在短时间内抽象出不同的子区域。
3.3网络结构
使用预训练的Resnet来获取特征层,特征层的大小是输入图像的1/8,利用金字塔池化模型来获取上下文信息,随后将金字塔池化模型的输出与Resnet得到的特征图在channel维度叠加起来,然后通过一个1*1卷积得到最后的预测图。
金字塔池模块可以收集层次信息,比全局池更具有代表性

4.对基于resnet的FCN进行深度监督

增加网络的深度会导致优化的困难,Resnet通过残差快来解决了这个问题,
深层Resnet网络层主要是在前一层中学习残差。
在文中,作者相反的提出通过监督产生初始的结果,但是要承担额外的损失,然后通过最后的损失来学习残差,这样深度网络的优化就被分成了两个部分,如下图所示,除了主分支使用softmax loss来训练最终的分类器外,第四阶段之后还会使用另一个分类器

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值