Tesseract-OCR图片识别为文字

1 场景

识别图片中的文字(识别图片中的电话号码、姓名等)

2 方案

使用Tesseract OCR软件来识别图片内容

官网:https://github.com/tesseract-ocr/tesseract

来自官方解释:

这个包包含一个OCR引擎- libtesseract和一个命令行程序- tesseract

Tesseract支持各种输出格式:纯文本、hOCR (HTML)、PDF、不可见的纯文本PDF、TSV。主分支还实验性地支持ALTO (XML)输出。

3 windows下安装

3.1 安装

下载官网:

https://github.com/UB-Mannheim/tesseract/wiki

下载文件:

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.1.0.20190314.exe

安装路径:

D:\Program Files\Tesseract-OCR

将OCR安装路径,添加到环境变量

查看当前安装版本如下:

C:\Users\admin>tesseract -v
tesseract v4.0.0.20190314
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
 Found AVX2
 Found AVX
 Found SSE
3.2 中文训练集

有训练集文件,才可进行图片上的文字识别。

默认有英文训练集,可以识别图片中的英文,训练集路径如下:

D:\Program Files\Tesseract-OCR\tessdata\eng.traineddata

命令行输入tesseract --list-langs命令查看当前已按照语言包:

C:\Users\admin>tesseract --list-langs
List of available languages (2):
eng
osd

训练集官网:https://tesseract-ocr.github.io/tessdoc/Data-Files

下载中文训练集:https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

将下载的简体中文训练集文件chi_sim.traineddata,拷贝到tessdata路径下:

D:\Program Files\Tesseract-OCR\tessdata\

再次查看,支持语言,可见已支持简体中文chi_sim

C:\Users\admin>tesseract --list-langs
List of available languages (3):
chi_sim
eng
osd
3.3 识别图片

基本语法命令:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

如执行以下命令,选择语言为简体中文(默认为英文):

tesseract myOcrTest.png res -l chi_sim

执行结果如下:

D:\tmp\orcTest02>tesseract myOcrTest.png res -l chi_sim
Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica

将在同级目录下生成文件res.txt,文件内容如下:

文 字 识 别 测 试 123ceshi


同测试图片一致。

注意,解析结果将多生成一行,返回解析结果时,需去掉最后一行

3.3 查看帮助
D:\tmp\orcTest02>tesseract --help
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

### 回答1: Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以将图片中的文字转换为可编辑的文本。它最早由惠普实验室开发并于2005年移交给Google维护。 Tesseract-OCR基于机器学习算法,能够从图像中准确地识别文字。它支持多种语言,包括中文,而且能够适应各种场景,如印刷品、手写文字图片中的文字等等。 使用Tesseract-OCR库的过程相对简单。首先,需要将待识别图片转换为适合Tesseract-OCR处理的格式,如TIFF或PNG。然后,调用Tesseract-OCR库的API,将图片作为参数传递给库,即可得到识别结果。 Tesseract-OCR识别库具有以下几个优点。首先,它是一个开源项目,这意味着任何人都可以查看、修改和提升其代码,使其更适应不同的需求。其次,它训练有素,可以提供高准确率的文字识别结果。此外,Tesseract-OCR库还可以通过训练自定义字体来提高特定字体的识别准确率,这一点对于需要处理特定类型文字的应用非常有用。 然而,Tesseract-OCR库也存在一些局限性。首先,它对于复杂图形或低分辨率的图片识别效果较差。其次,虽然Tesseract-OCR支持中文识别,但对于一些特殊的中文字符或排版形式可能出现辨识错误的情况。 综上所述,Tesseract-OCR是一个功能强大的OCR识别库,适用于各种场景的文字识别需求。无论是从印刷品、手写文字还是图片中提取文字Tesseract-OCR都能够提供准确的识别结果,并且其开源性质和可定制化的特点为用户提供了更大的自由度。 ### 回答2: Tesseract-OCR识别库是一个开源的光学字符识别OCR)工具,由HP实验室开发,现由Google维护。它能够将印刷体或手写体的文字转换为计算机可识别的文本。 Tesseract-OCR识别库支持多种语言和平台,并且是一个高度准确的OCR引擎。它具有丰富的功能,包括自动文本分区、文本对齐和格式化、自动旋转图像等。此外,它还可以识别多个字体、文字大小和颜色的文本。 Tesseract-OCR识别库的使用也非常简单。它可以通过API或命令行界面进行调用和集成,还提供了生成HTML、PDF等格式文件的功能。用户可以通过调整参数来优化识别结果,如设置语言、字体和识别区域等。 Tesseract-OCR识别库在各种应用中得到广泛应用。它可以用于数字化文档、扫描文档、文本识别和自动化处理等方面。通过将纸质文档转换为可编辑的文本文件,可以提高办公效率和搜索能力,并方便文档的归档和分享。 总的来说,Tesseract-OCR识别库是一个强大且易于使用的工具,能够准确地将印刷体或手写体的文字转换为计算机可识别的文本。它的广泛应用范围使它成为数字化时代的重要工具之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值