PointRend:Image Segmentation as Rendering

arxiv地址
论文为2020年CVPR,作者包括何凯明大神。
论文的主要思想是将图像分割问题看成计算机图形学中的渲染问题。首先说一下渲染(render)的意思

渲染(render)

渲染来源于计算机图形学,指的是将模型转化为数字图像进行显示的过程,广泛应用于特效和游戏制作。GPU(graph processing unit)简单翻译是图形处理单元,这里的graph指的就是计算机图形。在特效和游戏制作中,会构建出各种2D或者3D模型;进行显示的时候,就可以把显示器看作一个视窗,上面每一个像素映射到这些模型上,进行采样和计算,得出的就是显示器的显示内容。这个过程就是渲染,主要方法有光栅化等。

现有图像分割的问题

在图像分割中,卷积操作都是基于一个规则的形状,比如3x3的正方形卷积核。在对象的边缘上进行卷积的时候,会对该对象内部过采样,同时对图像的边界欠采样,导致分割的边缘过于平滑。
现有的解决方法是在低分辨率的图像上进行分割,因为低分辩的图像边缘本就很模糊。这种方法不能满足对高分辨率图像分割的需求。

创新点和方法

对于分割出的低分辩率图像,用双线性插值法上采样为高分辨率的图像,再对目标边缘的点进行渲染,提升分割精度。
在这里插入图片描述
论文的网络主要是在Mask-RCNN网络上进行对比和更改,网络示意图如所示。
在头部的特征提取网络中提取出特征图,看作是计算机图形学中的模型,每个特征图可以看成是模型的特征向量,也就是图中的fine-gained feature。对proposal出的区域进行分割的结果称作粗糙的预测结果,对应图中coarse prediction。
对粗糙的预测结果用双线性插值法进行上采样,这样在图像的边缘上,会出现确定性不高的点。选取不确定最高的一些点,把这些点分别对应到fine-grained features 上面,对每个通道上最近的四个点进行双线性插值计算,再与不确定点组成一个向量。最后采用MLP(Multilayer Perceptron,多层感知机)进行分类。

个人理解

个人感觉文中方法与Unet网络的思路有一个共通点,都是利用low-level的特征图去还原图像分割的边缘。不同的是,文中方法是基于特定点的操作(point-wise),而且方法来源于计算机图形学中的渲染,为语义分割的边缘恢复提供了另一个思路。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值