Tessract训练样本字库

1. 下载jTessBoxEditor训练软件

可从网上下载或者以下链接
https://download.csdn.net/download/weixin_47142014/34862026?spm=1001.2014.3001.5503

2.下载后的文件夹

在这里插入图片描述
在这里插入图片描述
双击文件夹下的train.bat在这里插入图片描述

3.样本图片准备(进行训练的样本图片越多越好)

在这里插入图片描述
在这里插入图片描述

4.使用jTessBoxEditor生成训练样本的的合并tif图片

1)首先打开jTessBoxEditor,菜单Tools->Merge TIFF,进入训练样本所在文件夹,选中要参与训练的样本图片(按住shift或ctrl键点击可多选):在这里插入图片描述

(2)选择图片后,点击打开,保存到当前路径,命名为“chi.test.exp0.tif”
tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言,fontname是字体,num为自定义数字。

5.生成.box文件:

打开命令行程序,进入到该文件夹下,输入一下命令

tesseract chi.test.exp0.tif zwp.test.exp0 -l chi_sim -psm 7 batch.nochop makebox

6.使用jTessBoxEditor改正样本图片的错误

Box Editor->Open 选择刚才生成的box文件,
在这里插入图片描述

7. 生成font_properties文件:

(1)执行命令,执行完之后,会在当前目录生成font_properties文件

echo test 0 0 0 0 0 >font_properties

(2)生成.tr训练文件:

tesseract chi.test.exp0.tif zwp.test.exp0 nobatch box.train

(3)生成字符集文件

unicharset_extractor chi.test.exp0.box

(4)生成shape文件:

shapeclustering -F font_properties -U unicharset -O chi.unicharset chi.test.exp0.tr

(5)生成聚字符特征文件:

mftraining -F font_properties -U unicharset -O chi.unicharset chi.test.exp0.tr

(6)生成字符正常化特征文件:

cntraining chi.test.exp0.tr

(7)文件重命名:

rename normproto chi.normproto
rename inttemp chi.inttemp
rename pffmtable chi.pffmtable
rename shapetable chi.shapetable

(8)合并训练文件:

combine_tessdata chi.

最后将生成的“chi.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中,就可以用了

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Accccccccv

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值