Mask R-CNN论文笔记

最新推荐文章于 2024-03-05 22:09:22 发布

AI强仔

最新推荐文章于 2024-03-05 22:09:22 发布

阅读量296

点赞数 2

分类专栏：人工智能图像处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zephyr_wang/article/details/106820063

版权

人工智能同时被 3 个专栏收录

150 篇文章 22 订阅

订阅专栏

35 篇文章 5 订阅

订阅专栏

24 篇文章 1 订阅

订阅专栏

1 简介

来源论文《MaskR-CNN》。
Mask R-CNN 可以进行物体实例的分割。在识别一张图片中各物体实例的同时，对每个实例产生高质量的分割蒙版（mask）。

R-CNN （region-based CNN）发展到Faster R-CNN，现在又到了Mask R-CNN。Mask R-CNN是在Faster R-CNN的基础上增加了一个分支，用来进行RoI（region of interest）上的分割蒙版的预测。也增加了5fps（帧/秒）的消耗。

如下图那些带颜色的蒙版。
在这里插入图片描述

Mask R-CNN并行的预测分类标签和蒙版。

2 Mask R-CNN

Faster R-CNN对于每个候选物体有两个输出，分别是分类标签和bounding-box offset。Mask R-CNN增加了第3个输出，物体蒙版。

Faster R-CNN 包括两个步骤。第一步是RPN（region proposal network），用来产生候选的物体bound ing boxes。第二步，使用ROIPool 从每个候选的 bound ing box中提取特征，进行分类和bounding box 回归。

Mask R-CNN也是两步，第一步也是RPN，与上面相同。第二步，并行预测分类和box offset，同时对每个ROI输出一个二进制蒙版（mask）。

所以损失函数有三部分，L=L_分类+L_box+L_mask。L_分类+L_box同以前。Mask 分支对于每个ROI有一个 Kmm维输出，意味着K个m*m的二进制mask，每一个对应着K种分类中的一个。应用一个per-pixel sigmoid函数，定义L_mask为平均binary cross-entropy loss。L_mask是像素对像素（pixel）的行为。

Mask分支对于每个ROI预测K个masks，但我们仅使用第k个mask，其中k是通过分类预测分支预测的分类。

2.1.1 ROIAlign

Faster R-CNN用的ROIPool 会导致ROI与已提取特征的偏移，对不齐。主要是因为离散采样的原因。
Mask R-CNN采用ROIAlign避免了上面的问题。
ROIAlign说明如下图：
在这里插入图片描述

2.1.2 Mask 分支

在网络头部增加一个全卷积（FCN）mask预测分支。从使用FCN从每个ROI预测一个m*m的mask。如下图。
在这里插入图片描述

3 实验结果

3.1.1 ROLPool 与ROIAlign

在这里插入图片描述

3.1.2 Mask R-CNN 结果

Mask R-CNN不仅在mask预测上表现很好，同时也提高了bounding box的预测。
在这里插入图片描述

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI强仔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。