Tesseract OCR系统在MAC系统的安装日记

Tesseract是个OCR库,目前有Google赞助,是目前公认的最优秀的、最精确的开源OCR系统。Tesseract是一个Python的命令行工具,不通过import语句导入的库,要通过tesseract命令在Python外运行。

使用Homebrew(http://brew.sh)等第三方工具,可以很方便的在Mac系统上安装Tesseract,以下是我在安装过程中遇到的问题和解决方法:

Mac系统、Python版本:macOS 10.13.4,Python 3.6.5

Tesseract安装,$ Mac控制台命令提示符:

$brew install tesseract

安装过程中出现如下错误提示:

Error: The `brew link` step did not complete successfully

The formula built, but is not symlinked into /usr/local

Could not symlink lib/pkgconfig/tesseract.pc

/usr/local/lib/pkgconfig is not writable.

依次执行以下命令即可解决:

$sudo chown -R `whoami`:admin /usr/local/lib/pkgconfig/

$brew link tesseract

到此,Tesseract在Mac上已经安装成功,执行命令

$export TESSDATA_PREFIX=/usr/local/Cellar/tesseract/3.05.01/share/

$tesseract --version

出现:

tesseract 3.05.01

leptonica-1.75.3

libjpeg 9c : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11

表示安装成功。

测试一下效果,执行命令

$tesseract test.png output

其中,test.png为输入样本图形文件,output为输出,即在当前目录下会生成输出文件output.txt;

测试过程中可能出现错误,如下:

Tesseract Open Source OCR Engine v3.05.01 with Leptonica

Error in fopenReadStream: file not found

Error in pixRead: image file not found: <!DOCTYPE html>

Image file <!DOCTYPE html> cannot be read!

Error during processing.

此时,不用灰心,不是安装出的什么问题,而是输入文件test.png文件有问题,换文件即可。



阅读更多
个人分类: python 数据采集
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭