PointRend: Image Segmentation as Rendering阅读笔记

参考博文:

1、PointRend: Image Segmentation as Rendering(论文解读二十四)https://blog.csdn.net/qq_41997920/article/details/104536014

2、【CV论文笔记】PointRend: Image Segmentation as Rendering https://www.jianshu.com/p/52feafcfdc8f

3、FAIR(何恺明团队新作) PointRend:将图像分割视为渲染(Rendering) https://zhuanlan.zhihu.com/p/98181358

4、欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响? https://www.zhihu.com/question/269698662

5、计算机中所说的「渲染」是什么意思?https://www.zhihu.com/question/31971846 后面有个解释挺有趣

6、挺好的一个知乎深度学习小团队  https://www.zhihu.com/people/hoshi-83-39/posts

1、摘要

论文提出一种新的方法,可以对物体和场景进行有效的高质量图像分割。
本文的中心思想是将图像分割视为一个渲染问题,并使计算机图形学中的经典思想适应有效地“渲染”高质量的标签图。
 
存在的问题:
过采样( oversample ):对于图片中低频区域( 属于同一个物体 ),没必要使用 太多的采样点,却使用太多采样点造成过采样
采样( undersample ) :对于图片中高频区域( 靠近物体边界 ),如果这些区域的采样过于稀疏,导致分割出的边界过于平滑,不大真实。
论文给出的解决方案:
PointRend 使用细分策略在需要计算标签的区域选择一组非均匀的采样点,而后为其预测类别
PointRend 不会对输出网格上的所有点进行过多预测,而只会对精心选择的点(不确定性较强的点)进行预测。
PointRend 是一个通用模块,可以有多种形式的实现。它接受一个或多个典型的 CNN feature map ,然后输出高分辨率预测。
PointRend 通过插值操作来提取选中点的点级特征,并使用一个小的 point head 子网络根据逐点特征来预测输出 feature map

2、整套PointRend模块包含3个部分

  • 1)一种选择少量合适像素点的策略。这种策略能帮助模型尽可能少的去选择那些真正需要去进一步判断的点,从而避免计算量过大的问题。
  • 2)对于每一个被选出来的点,如何对该点构建特征向量(point-wise feature representation)。
  • 3)根据每一个点提取出的特征,去预测该点所属的类别。

2.1 Point Selection for Inference and Training

目的:处于目标边缘的点
Inference

用于推断的点选择策略受到计算机图形学中自适应细分(adaptive subdivision)这一经典技术的启发。该技术通过计算与其近邻的值显著不同的位置,来高效渲染高分辨率图像(如通过光线追踪);其他位置的值则通过内插已经计算好的输出值来获得(从粗糙网格开始)。

该“渲染”方法就是从常规的网络的最后一层输出开始(意思就是从网络的最深层,即感受野最大的那层开始上采样迭代),在每一次迭代的过程中,PointRend都会用双线性差值(bilinear interpolation)的办法进行上采样,并且从中选取N个不确定的点(比如那些在二分蒙版的情况下概率接近0.5的),生产该点的特征,并预测它们的标签。这一方法将被迭代使用,直到达到输出的分辨率大小。

Training

1Over generation:从均匀分布中随机选取kN个候选点。

2Importance sampling:通过插值计算出选中的kN个点,对该任务的不确定性估计,再从中选择个βN点。 (β ∈ [0,1])

3Coverage:剩下的个点就从剩下的候选点均匀采样。

2.2 Point-wise Representation and Point Head

其实就是将两种不同的特征(细粒度特征和粗粒度特征)进行拼接,作为每一个点的特征表示。两者的作用分别是提供目标的细节信息以及全局的上下文信息。

最后就是Point Head,比较容易理解,就是给定每个点的特征表示,采用MLPmulti-layer perceptron)进行分割预测,预测点的类别标签。

1coarse prediction可以是Mask R-CNN7×7 轻量级mask head的输出。

2)Features can be extracted from a single feature map (e.g., res 2 in a ResNet); they can also be extracted from multiple feature maps (e.g., res 2 to res 5 , or their feature pyramid [28] counterparts) and concatenated, following the Hypercolumn method [17].

最后结果如图所示,对边界更加敏感,效果更好。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值