OCR验证码识别

       最近,想做一个刷票的程序,有 验证码 ,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。

  后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的 ocr组件,但是发现根本就识别不了。后来发现开源的Tesseract比较好,但网站上提供的是c++的代码,个人对c++不是太熟。最后我找到了 Tesseract的.net版本,下载地址如下:

Tesseract源码下载:附件tesseract-2.04.rar (下载 131 次)
Tessnet2源码下载:附件dotnet.rar (下载 117 次)
另外发现这个用法非常简单,注意还需要下载语言包,我这里识别的是纯字母的,所以就用英文的语言包了。另外为了提高验证率,还可以自己进行训练,由于我的需求比较简单,我就没有做这个步骤了,直接使用英文语言包了。

  下面是我的关键测试代码:

  1.             InitializeComponent();
  2.             ocr = new tessnet2.Tesseract();
  3.             ocr.SetVariable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ");
  4.             ocr.Init(Application.StartupPath + @"\lng\eng", "eng", false);

  5.             WebClient wc = new WebClient();
  6.             byte[] oimg = wc.DownloadData("some url"); // 这里我地址做了隐藏,自己修改成要识别的地址吧
  7.             Bitmap bp = new Bitmap(new MemoryStream(oimg), true);
  8.             pictureBox1.Image = bp;
  9.             bp = ImageProcess.RemoveGreen(bp);
  10.             bp = ImageProcess.ToBW(bp);
  11.             pictureBox2.Image = bp;
  12.             List<tessnet2.Word> result = ocr.DoOCR(bp, Rectangle.Empty);
  13.             string txt = "";
  14.             foreach (tessnet2.Word word in result)
  15.             {
  16.                 txt += word.Text;
  17.             }
  18.             textBox1.Text = txt;
复制代码
另外,还有一个问题,我这里先对图像进行了简单的预处理,去除干扰,转换成二值图像。不知道大家还有没有更好的方法。我的这种方法,对于简单的验证码,效果还不错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值