Tesseract是一个开源的OCR引擎,能识别100多种语言(中,英,韩,日,德,法…等等),但是Tesseract对手写的识别能力较差。
1.安装
//先安装依赖库libpng, jpeg, libtiff, leptonica
brew install leptonica
//安装tesseract
brew install tesseract
//与python对接需要安装的包
pip3 install Pillow
pip3 install pytesseract
2.下载语言库
下载地址:https://github.com/tesseract-ocr/tessdata
根据自己的需求选择所要的语言库,在这里我们选择的是简体中文所以选择的库是:chi_sim.traineddata、eng.traineddata
将文件拷贝到到:/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata目录下。
3.Tesseract使用
终端输入命令:tesseract --help
4.案例
#coding:utf-