最近,想做一个刷票的程序,有
验证码
,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。
后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的 ocr组件,但是发现根本就识别不了。后来发现开源的Tesseract比较好,但网站上提供的是c++的代码,个人对c++不是太熟。最后我找到了 Tesseract的.net版本,下载地址如下:
Tesseract源码下载:附件: tesseract-2.04.rar (下载 131 次)
Tessnet2源码下载:附件: dotnet.rar (下载 117 次)
另外发现这个用法非常简单,注意还需要下载语言包,我这里识别的是纯字母的,所以就用英文的语言包了。另外为了提高验证率,还可以自己进行训练,由于我的需求比较简单,我就没有做这个步骤了,直接使用英文语言包了。
下面是我的关键测试代码: