OCR学习之一:OCR简介

1.什么是OCR?

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

 

2.OCR典型应用有哪些?

全文识别:创建可检索文档

当文档以图像,传真或者扫描文档形式存在时,是不容易进行搜索的。OCR可将文本图像转换成实际可搜索的文本。Google Desktop 和Windows Desktop Search可为这些带有OCR识别的PDF文件和XPS文件编索引,使你通过常规的文本搜索找到所需文件。

区域识别:表格填报

在日常工作和生活中,保单,纳税申报,发票和支票等都会涉及到表单。如何使表单处理轻松而快速呢?绝大多数表单处理解决方案都是通过OCR来收集打印数据,ICR 来收集手写数据,OMR来检测所填数据。结构化的表单处理通常采用分区OCR和ICR。

 

3.OCR识别率取决于哪些因素?

1.扫描分辨率:不求最“高”,只求最“佳”。根据经验,五号印刷体采用250~300dpi比较合适;字号比较大(四号以上),用150~200dpi就足够了;

2.对比度:为了达到最佳的识别效果,对输入稿件在扫描时的要求是清晰,使扫描文件黑白分明,有利于软件的识别;

3.偏斜程度:现在的OCR大都采用字模识别的方式,因此图像如果有一定程度的倾斜,就会严重影响识别效果,一方面需要尽量摆正扫描文件,另一方面还需要使用软件进行偏斜校正;

4.图片模式:一般对彩色模式识别很差,黑白模式(Line/art)的图片识别较好;

5.字体:印刷体识别率高,手写体识别率很低,需要人工校正;

 

4.OCR开源项目

1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html

2.Clara OCR, http://directory.fsf.org/claraocr.html

3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

4.GOCR, http://sourceforge.net/projects/jocr

5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

6.Tesseract, http://code.google.com/p/tesseract-ocr/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值