MTCNN+CRNN解决车牌识别问题

最新推荐文章于 2023-12-04 20:06:49 发布

yariel

最新推荐文章于 2023-12-04 20:06:49 发布

阅读量3.1k

点赞数

分类专栏： MTCNN 文章标签： MTCNN 车牌识别

本文链接：https://blog.csdn.net/yycsin/article/details/103876971

版权

MTCNN 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MTCNN部分

1. MTCNN理解

MTCNN是用在人脸识别中的人脸定位领域，使用MTCNN取得了比较好的效果，目前在人脸识别中的人脸定位阶段，很多都是使用MTCNN来完成的；

MTCNN一共有3个模型，分别为PNet，RNet，ONet；三个模型就意味着我们要训练三次，事实上也的确如此；训练过程在第三部分讲。

我们使用的训练数据不是整幅原始图像，而是从原图片抠出来的一个个固定尺寸的子图片，每幅图像可产生多个正样本，负样本以及疑难样本；

一个正样本，再加上一个偏移量，就可以作为训练样本了；为什么可以进行学习呢？像上图的样本，没有显示全，就需要通过偏移量将其显示全，大量的样本学习之后，给出一个部分图片，机器就可以知道如何移动才能包括全部车牌；

如何保证我们一定可以找到车牌呢？因为在推理的时候，整幅图进行了多次缩放，每次缩放后喂给PNet检测一次，而PNet网络检测的图片大小恒定为7*22，也就是说按7*22的窗口进行滑窗；可以想象，当原图缩放到很小的时候，那么喂给PNet的恒定的7*22的图片映射到原图将会变的很大；可以想象，把每个7*22的窗口映射回原图的话，原图上肯定布满了不同大小的框；

仅仅PNet是接受全尺寸的图片，而RNet和ONet接受的是经PNet卷积后的输出，大小是恒定的；

2. MTCNN在车牌领域的改进

在使用中，针对车牌的应用场景，进行了改造：

借鉴了yolov3的思想，对训练集的GT进行了统计，得出一个比较好的长宽比，在PNet中，输入样本img的尺寸是7*22；RNet中为14*44,；ONet的输入样本的尺寸是28*88；输入尺寸更改了，相应的网络结构也要调整；

对于ONet的输出，根据实际情况，车牌不能嵌套，就是预测的两个框是全包围的情况，一个框很大，一个框很小，小框完全在大框内部，这种情况是不可能的，所以需要把这种情况去除；NMS对于这类情况，若IOU很小，会保留两个框；

3. MTCNN训练

刚才说了，MTCNN有三个模型，所以要训练三个模型，这三个模型如何训练呢？

我们有一批样本，对于样本中的每个图片都有GT，GT框起来的就是我们希望定位的样本；

第一步：我们拿来图片之后，按规定的像素进行抠图，比如按20*20的大小（这里使用的是自定义的三个图像大小，如2中描述），那么我们就可以获得大量的子图片，根据预先标注框计算IOU，可以知道哪些是正样本，哪些是负样本，如果子图片和GT的IOU处于正样本和负样本之间的话，算作疑难样本；

第二步：拿这些子图片对PNet进行训练；

第三步：仍然拿原来的图片，喂给PNet，PNet会输出bboxes（已映射到原图）和是否车牌的预测值，对于这些bboxes集合，如果对应的类别预测低于设定阈值，这些bbox将被丢弃；留下的bboxes将根据预先的标注框，计算IOU；同理，大于某个阈值的是正样本，小于某个阈值的是负样本，中间的是疑难样本；在进行划分的时候，针对正样本和疑难样本，需要给出与标定值的偏移值；至于负样本，这些偏移值随便给一个就好了，比如【0,0,0,0】，反正在算偏移损失的时候负样本的也会过滤掉；

第四步：拿第三步的输出的样本，resize到【14,44】，单独对RNet进行训练；

第五步：仍然拿原始图片，级联喂给PNet和RNet，输出bboxes集合（已映射到原图）和是否车票的预测值；若预测值低于阈值，相对应的bbox将被丢弃；留下的bboxes将根据预先的标注框，计算IOU，根据IOU的值，划分正样本，负样本，疑难样本；

第六步：拿第五步的数据resize到[28,88]，喂给ONet进行训练，训练完即可；

CRNN部分

使用CRNN，也就是CNN+RNN（双向LSTM），使用CTC损失，下次再说。

yariel

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
MTCNN+CRNN解决车牌识别问题

MTCNN部分1. MTCNN理解 MTCNN是用在人脸识别中的人脸定位领域，使用MTCNN取得了比较好的效果，目前在人脸识别中的人脸定位阶段，很多都是使用MTCNN来完成的； MTCNN一共有3个模型，分别为PNet，RNet，ONet；三个模型就意味着我们要训练三次，事实上也的确如此；训练过程在第三部分讲。我们使用的训练数据不是整幅原始图像，而是从原图片抠出...
复制链接

扫一扫

专栏目录