MTCNN技术要点总结

最新推荐文章于 2024-03-11 09:29:39 发布

zcm0126

最新推荐文章于 2024-03-11 09:29:39 发布

阅读量1.1k

点赞数 5

文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/zcm0126/article/details/106272983

版权

MTCNN里面的技术关键点包括：

iou（交并比）
nms（非极大值抑制）
convert_to_square（转正方形）
偏移量计算（生成标签时）
图像金字塔（侦测时）
图像坐标反算（侦测时）

本文简单的总结这6个技术要点

1.iou

iou表示两个框重叠的比例，iou越大，表示两个框重叠部分越多，越有可能框的是同一个物体

P_Net和R_Net：交集比并集

iou

O_Net：交集比最小框

O_NET中更多的是出现大框套小框的情况，因此以交集比最小框的比值作为iou。

2.nms

nms的作用是去除重复框，流程如下：
nms流程图

3.convert_to_square（转正方形）

在侦测的时候，P_NET的人脸预测框需要先转化为正方形，然后在原图上裁剪出对应的图片，resize为（24,24）之后才能把图片输入R_NET。同样，R_NET的人脸预测框也需要转化为正方形，然后裁剪原图，resize为（48,48），输入O_NET最终预测人脸区域。

在这里插入图片描述
如图，蓝色框为预测框，红色框为预测框转化成的正方形。
正方形框左上角的坐标值 = 左上角的坐标值+0.5框边长-0.5最大边长。

len_side = max(w, h)
_x1 = x1 + 0.5 * w - 0.5 * len_side

预测框和转化后的正方形框中心点不变。不过在特殊情况，如原图中人脸太靠近图片边缘，预测框转正方形后正方形的边可能超过图片边缘，此时中心点可略作调整，使正方形位于图片内部。

4.偏移率计算

生成标签的时候需要进行偏移率计算。
标签包括1个类别（正样本为1，负样本为0，部分样本为2）， 4个边框偏移率，10个人脸关键点的坐标值偏移率，即一个15维的向量。
偏移率代表的是真实框相对于建议框的偏移的比率。
offset =（真实框坐标值-建议框坐标值）/建议框的边长
P_NET，R_NET，O_NET的建议框分别为12*12， 24*24， 48*48的正方形
在这里插入图片描述

5.图像金字塔

侦测的时候，将原图输入P_NET，可以得到（1, C, H, W）形状的特征图，特征图上的每个点的感受野为12*12。12*12的区域是很小的，无法预测原图上比较大的人脸，因此可以把原图进行缩放，传入P_NRT，原图上的人脸变小之后，P_NET才能准确预测人脸框。

6.图像坐标反算

在侦测的时候进行做图像坐标反算，反算分为两个部分：
1.根据索引，计算出建议框在原图上的坐标值
如图有4个建议框，分别为红，绿，黄，蓝，每个建议框对应特征图上的一个点，比如红色框对应特征图上（0,0）这个点，绿色框对应特征图上（0,1）这个点。每个建议框和特征图上的点一一对应，因此，根据特征图上的索引，可以反算得到建议框在原图上的坐标。
特征图共有5个通道，分别为：
1.置信度：模型预测出的建议框内含有人脸的概率
2.预测框相对于建议框左上角X1的偏移率：offset_x1
3.预测框相对于建议框左上角y1的偏移率：offset_y1
4.预测框相对于建议框右下角X2的偏移率：offset_x2
5.预测框相对于建议框右下角y2的偏移率：offset_y2

在这里插入图片描述

2.根据偏移率，计算实际预测框在原图上的坐标值
网络输出实际预测框相对于建议框的偏移率，因此可以根据建议框在原图上的坐标，加上建议框边长乘以对应的偏移率，得到实际预测框在原图上的坐标值
在这里插入图片描述

xmind：

在这里插入图片描述

zcm0126

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
MTCNN技术要点总结

MTCNN里面的技术关键点包括：iou（交并比）nms（非极大值抑制）convert_to_square（转正方形）偏移量计算图像金字塔特征图反算本文简单的总结这6个技术要点1.iouP_Net和R_Net使用交集比并集的iou：O_Net使用交集比最小框的iou：2.nmsnms流程如下：3.convert_to_square（转正方形）在侦测的时候，P_NET的人脸预测框需要先转化为边长为24的正方形，然后在原图上裁剪出对应的图片之后才能把图片输入R_NET.
复制链接

扫一扫