安装:url:https://tesseract-ocr.github.io/tessdoc/Home.html
依赖:JDK -->https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
jTessBoxEditor: Download 直接双击trian.bat即可启动。
- 将训练数据打包成tiff格式,如果有多个图片可以用jTessBoxEditors合并成单个,图片可以利用Windows自带的画图工具另存为tif格式。
- 将训练数据生成box格式
- 用jTessBoxEditor打开tiff文件,根据实际情况进行修正,可能会分页需要逐页调整
- 产生字符特征文件,生成.tr文件
- 计算字符集,生成一个unicharset文件
- 定义字体特征文件,新建一个文件font_properties。里面内容写入normal 0 0 0 0 0
- 聚集字符特征
- 合并5个文件
*****************************************************************分割线*********************************************************************
1. 生成box文件命令格式
【语法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
【语法】:lang为语言名称,fontname为字体名称,num为序号;在tesseract中,一定要注意格式
注:如果需要屏蔽错误加option ,"--psm 7"
.\tesseract.exe .\okcancel.normal.exp0.tif okcancel.normal.exp0 -l chi_sim --psm 7 batch.nochop makebox
2. 生成.tr文件
【语法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] nobatch box.train
注:如果需要屏蔽错误加option ,"--psm 7"
.\tesseract.exe .\okcancel.normal.exp0.tif --psm 7 okcancel.normal.exp0 nobatch box.train
3. 生成unicharset文件
【语法】:unicharset_extractor [lang].[fontname].exp[num].box
.\unicharset_extractor.exe .\okcancel.normal.exp0.box
4. 聚集字符特征
三个命令:
【语法】:shapeclustering -F font_properties -U unicharset [lang].[fontname].exp[num].tr
.\shapeclustering.exe -F .\font_properties -U .\unicharset .\okcancel.normal.exp0.tr
【语法】:mftraining -F font_properties -U unicharset -O unicharset [lang].[fontname].exp[num].tr
.\mftraining.exe -F .\font_properties -U .\unicharset -O unicharset .\okcancel.normal.exp0.tr
【语法】:cntraining [lang].[fontname].exp[num].tr
.\cntraining.exe .\okcancel.normal.exp0.tr
运行以上命令后会生成5个文件。
5. 合并5个文件
重命名这5个文件,再前面加"normal."
运行如下命令,即可生成训练字库数据
.\combine_tessdata.exe normal.
可以在上图中看到normal.traineddata即为最终的字库。
【参考】