RoI：RoIPooling 和 RoIAlign

最新推荐文章于 2023-02-14 09:49:04 发布

ytusdc

最新推荐文章于 2023-02-14 09:49:04 发布

阅读量1.3k

点赞数

分类专栏： AI之路 - Face

本文链接：https://blog.csdn.net/ytusdc/article/details/86692558

版权

AI之路 - Face 专栏收录该内容

71 篇文章 38 订阅

订阅专栏

RoI 目的：

为了使得检测网络可以输入任意size的图片，使用ROIPooling在网络中某一个阶段将不同尺度的图片ROI pooling成相同的尺度输出，然后传入fc层。

输入特征图的大小不确定，输出的特征图的大小固定

缺点：

（1）将候选框边界量化为整数点坐标值。

（2）将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。

由于 RoIPooling 采用的是 INTER_NEAREST（即最近邻插值），在resize时，对于缩放后坐标不能刚好为整数的情况，采用了粗暴的舍去小数，相当于选取离目标点最近的点，损失一定的空间精度。

针对上图

1、Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32)，原图800*800，最后一层特征图feature map大小:25*25

2、假定原图中有一region proposal，大小为665*665，这样，映射到特征图中的大小：665/32=20.78,即20.78*20.78，如果你看过Caffe的Roi Pooling的C++源码，在计算的时候会进行取整操作，于是，进行所谓的第一次量化，即映射的特征图大小为20*20

3、假定pooled_w=7，pooled_h=7，即pooling后固定成7*7大小的特征图，所以将上面在 feature map上映射的20*20的 region proposal划分成49个同等大小的小区域，每个小区域的大小20/7=2.86,即2.86*2.86，此时，进行第二次量化，故小区域大小变成2*2

4、每个2*2的小区域里，取出其中最大的像素值，作为这一个区域的‘代表’，这样，49个小区域就输出49个像素值，组成7*7大小的feature map。

经过这两次量化，候选区域已经出现了较明显的偏差（如图中绿色部分所示）。更重要的是，该层特征图上0.1个像素的偏差，缩放到原图就是3.2个像素。那么0.8的偏差，在原图上就是接近30个像素点的差别，这一差别不容小觑。

总结，所以通过上面可以看出，经过两次量化，即将浮点数取整，原本在特征图上映射的20*20大小的region proposal，偏差成大小为14*14的，存在一定的位置偏移，这样的像素偏差势必会对后层的回归定位产生影响。

举例计算流程：

下图为一张8*8的feature map，选取其中一个5*7的region输入ROIPooling输出2*2的结果。

1、划分为2*2=4块区域

（1）5/2 = 2.5 --> 2, 剩下的为3，则2+3

（2）7/2 = 3.5 -->3，剩下的为4，则3+4

2、取每个小区域的最大值为pooling值

二）、RoIAlign

优点：通过双线性插值避免了量化操作，保存了原始ROI的空间分布，有效避免了误差的产生；

这个是在Mask RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map时提出的。

为了解决ROI Pooling的上述缺点，作者提出了ROI Align这一改进的方法(如图2)。ROI Align的思路很简单：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作，。值得注意的是，在具体的算法操作上，ROI Align并不是简单地补充出候选区域边界上的坐标点，然后将这些坐标点进行池化，而是重新设计了一套比较优雅的流程，如图3 所示：

遍历每一个候选区域，保持浮点数边界不做量化。
将候选区域分割成k x k个单元，每个单元的边界也不做量化。
在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

这里对上述步骤的第三点作一些说明：这个固定位置是指在每一个矩形单元（bin）中按照固定规则确定的位置。比如，如果采样点数是1，那么就是这个单元的中心点。如果采样点数是4，那么就是把这个单元平均分割成四个小方块以后它们分别的中心点。显然这些采样点的坐标通常是浮点数，所以需要使用插值的方法得到它的像素值。在相关实验中，作者发现将采样点设为4会获得最佳性能，甚至直接设为1在性能上也相差无几。事实上，ROI Align 在遍历取样点的数量上没有ROIPooling那么多，但却可以获得更好的性能，这主要归功于解决了misalignment的问题。值得一提的是，我在实验时发现，ROI Align在VOC2007数据集上的提升效果并不如在COCO上明显。经过分析，造成这种区别的原因是COCO上小目标的数量更多，而小目标受misalignment问题的影响更大（比如，同样是0.5个像素点的偏差，对于较大的目标而言显得微不足道，但是对于小目标，误差的影响就要高很多）。

上图中，ROI Align层要将feature map固定为2*2大小，那些蓝色的点即为采样点，然后每个bin中有4个采样点，则这四个采样点经过MAX得到ROI output；