PointRend：Image Segmentation as Rendering

最新推荐文章于 2023-10-10 22:08:52 发布

5ham1ess

最新推荐文章于 2023-10-10 22:08:52 发布

阅读量490

点赞数

分类专栏：笔记文章标签：计算机视觉深度学习卷积

本文链接：https://blog.csdn.net/weixin_45580442/article/details/106108581

版权

笔记专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种将图像分割问题视为渲染问题的新方法，通过结合Mask-RCNN和计算机图形学中的渲染技术，提高了图像分割的精度，尤其是在边缘细节上。此方法在高分辨率图像分割中表现突出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

arxiv地址
论文为2020年CVPR，作者包括何凯明大神。
论文的主要思想是将图像分割问题看成计算机图形学中的渲染问题。首先说一下渲染（render）的意思

渲染(render)

渲染来源于计算机图形学，指的是将模型转化为数字图像进行显示的过程，广泛应用于特效和游戏制作。GPU（graph processing unit）简单翻译是图形处理单元，这里的graph指的就是计算机图形。在特效和游戏制作中，会构建出各种2D或者3D模型；进行显示的时候，就可以把显示器看作一个视窗，上面每一个像素映射到这些模型上，进行采样和计算，得出的就是显示器的显示内容。这个过程就是渲染，主要方法有光栅化等。

现有图像分割的问题

在图像分割中，卷积操作都是基于一个规则的形状，比如3x3的正方形卷积核。在对象的边缘上进行卷积的时候，会对该对象内部过采样，同时对图像的边界欠采样，导致分割的边缘过于平滑。
现有的解决方法是在低分辨率的图像上进行分割，因为低分辩的图像边缘本就很模糊。这种方法不能满足对高分辨率图像分割的需求。

创新点和方法

对于分割出的低分辩率图像，用双线性插值法上采样为高分辨率的图像，再对目标边缘的点进行渲染，提升分割精度。
在这里插入图片描述
论文的网络主要是在Mask-RCNN网络上进行对比和更改，网络示意图如所示。
在头部的特征提取网络中提取出特征图，看作是计算机图形学中的模型，每个特征图可以看成是模型的特征向量，也就是图中的fine-gained feature。对proposal出的区域进行分割的结果称作粗糙的预测结果，对应图中coarse prediction。
对粗糙的预测结果用双线性插值法进行上采样，这样在图像的边缘上，会出现确定性不高的点。选取不确定最高的一些点，把这些点分别对应到fine-grained features 上面，对每个通道上最近的四个点进行双线性插值计算，再与不确定点组成一个向量。最后采用MLP（Multilayer Perceptron，多层感知机）进行分类。