Tesseract-ocr识别中文并训练字库操作指南
一、Tesseract-ocr识别中文
1、Tesseract-ocr下载
2、中文语言包下载
Tesseract中文语言包 chi_sim.traineddata
下载下面的4个文件,复制到安装目录tessdata文件夹里。
chi_sim.traineddata
chi_sim_vert.traineddata
chi_tra.traineddata
chi_tra_vert.traineddata
3、识别中文
二、训练字库
1、下载jTessBoxEditorFX2.2.0
注意jTessBoxEditor有两个版本,带FX的版本才支持中文字符编辑,我们下载带FX版本的。
这个网址上列出了所有的jTessBoxEditorFX版本。
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
2、解压如下图所示:
tesseract-ocr的环境变量。
在系统环境变量path路径下添加E:\jTessBoxEditorFX\tesseract-ocr
新建字库tessdata的系统变量,变量名为:TESSDATA_PREFIX
变量值为:E:\jTessBoxEditorFX\tesseract-ocr\tessdata
确定后将电脑重启,至此jTessBoxEditorFX安装配置完成。
下面的操作步骤参见
使用jTessBoxEditorFX-2.2.0制作自己的字库