图像识别练习（字符验证码、车牌号、身份证号）

最新推荐文章于 2021-09-07 19:40:23 发布

清钟沁桐

最新推荐文章于 2021-09-07 19:40:23 发布

阅读量7.3k

点赞数 1

分类专栏：图像识别字符验证码车牌号身份证号 OCR 文章标签：算法 security 优化 css qq

图像识别字符验证码车牌号身份证号 OCR 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

图像识别练习（字符验证码、车牌号、身份证号）

© 野比 2012

欢迎大家和我讨论相关问题。联系方式：1429013154

代码在此（注意此版并非最终版）

光学字符识别（OCR）是非常有用的技术。在验证码识别、车牌号识别、文字识别方面，基于字符的识别技术算是比较容易上手的了（相比图文识别）。

闲来看到有朋友研究验证码识别，一时手痒，野比自己动手来做做验证码识别。当然，肯定只是简单的验证码。

名为验证码，实际上并不限于，还可以识别车牌号、身份证号、门牌号等各种乱七八糟的内容。

识别的流程很明确：

1、预处理图像

2、做y轴的投影

3、分析直方图分区

4、根据分区拆分图像为多个字符（很关键，拆得越好，后续识别率越高）

5、丢弃空白或无效字符

6、自动旋转字符（如果有倾斜），识别字符

如果样本中个图像有粘连，则可能造成分区不准确。这种情况下，需要进行旋转，但是怎样自动旋转，是个难题。

目前已可拆分出字符，下一步准备研究如何识别。（如果单个字符比较规范，可以利用现成的OCR控件）

这里有一些例子。

普通的验证码（毫无难度）

带干扰的验证码

较高强度干扰（目前使用的分区算法不能解决，需要更好的算法，比如动态阈值）

CSDN的验证码（毫无压力）

身份证号码

车牌号

补充个QQ验证码，用单一阈值方法，识别很困难，需要结合字符宽度进行判断

这是单一阈值分区的结果（没有限制宽度），可以看到效果很差。

继续研究如何优化分区算法，如何识别单个文字（可以考虑多重识别+样本训练）。

附上太平洋网站验证码。

有些粘连，但是可以通过固定字符宽度解决（宽度基本一致）

参考这张图（获得整个宽度，然后除以字符数得到每个宽度，分别提取）

二值化我用的Otsu算法，参考文献："A threshold selection method from gray-level histograms", IEEE Trans. Systems, Man and Cybernetics 9(1), pp. 62–66, 1979

关于验证码，这篇论文很不错，建议参考："Text-based CAPTCHA Strengths and Weaknesses", ACM Computer and Communication security 2011 (CSS'2011)

© 野比 2012

改进的去污算法

污损车牌号拆分字符

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。