一, tesseract-OCR的介绍
1,tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。
2,用tesseract可以识别的图片中字体,主要有以下一些特点:
- 使用一个标准字体
- 可以使用复印或者拍照,但是必须字体要清晰,没有痕迹
- 图片里没有歪歪斜斜的字体
- 另外没有超出图片中的字体,也没有残缺的字体
二, mac tesseract-OCR的安装
1,安装有四种方式:
- brew install --with-training-tools tesseract //安装tesseract, 同时安装训练工具
- brew install --all-languages tesseract //安装tesseract,同时它还会安装所有语言
- brew install --all-languages --with-training-tools tesseract //安装附加组件
- brew install tesseract //安装tesseract,但是不安装训练工具,我选择这种方式进行安装
2,安装完tesseract后,进行测试:
- tesseract -v
- tessera