Tesseract-ORC训练中文Windows命令行使用方法

先下载Tesseract4.0版本进行安装。

1.tesseract简单使用:

打印1.png中的文字以中文的形式到1.txt,编码形式默认为utf-8。

 tesseract 1.png -l chi_sim stdout 1

打印1.png中的文字以中文的形式到命令行,但中文会出现乱码。因为格式是utf-8,而命令行中读取文本是以ansi编码读取。

tesseract 1.png -l chi_sim stdout

2.tesseract训练:
1.安装 jTessBoxEditor,需要安装jdk-17_windows-x64_bin.exe环境才能运行。

2.png转为tif文件,这样才可以被 jTessBoxEditor box editor打开。

3.打开后是没有识别文字的,所以我们要先创建box文件再打开。
创建1.tif名为1的box文件,-l指定识别文字的语言为chi_sim中文:

tesseract 1.tif 1 -l chi_sim batch.nochop makebox

4.使用BoxEditor的open选项打开1.tif文件,会发现自动帮你用中文识别了。当然会很多不准确,这时需要自己手动逐个校正文字后保存。

5.保存后生成特征文件,后面合并要用。

  1. 生成tr文件
tesseract 1.tif 1 nobatch box.train
  1. 生成Character集合文件
unicharset_extractor 1.box
  1. 创建字体特征文件
echo name 0 0 0 0 0 >font_properties
  1. 生成shape文件
shapeclustering -F font_properties -U unicharset -O 1 1.tr
  1. 生成聚集字符特征文件
mftraining -F font_properties -U unicharset -O 1 1.tr
  1. 生成字符正常化特征文件
 cntraining 1.tr

6.合并上面创建的六个中,除font_properties文件的剩下五个文件。
首先给那五个文件名字加上前缀,比如加test:

for %a in (normproto pffmtable shapetable unicharset inttemp) do ren %a test.%a

然后再合并,刚刚前缀加的test,所以我们参数是test.:

 combine_tessdata test.

完成后就生成一个test.traineddata的语言文件了,放Tesseract-OCR\tessdata语言文件夹下。到时候用就指定语言参数就好了,比如:

 tesseract 1.png -l test stdout 1

这时候去看1.txt生成的内容就是你语言包训练出来的内容了!

参考文献:
Tesseract如何直接将识别结果输出到命令行
利用jTessBoxEditor工具进行Tesseract-OCR样本训练
使用Tesseract训练图片的方法
Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率
Tesseract-OCR的简单使用与训练
Tesseract-OCR命令行使用

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值