Tesseract-ORC训练中文Windows命令行使用方法

最新推荐文章于 2024-06-07 14:26:50 发布

文哥博客_wengeblog

最新推荐文章于 2024-06-07 14:26:50 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： python Tesseract jTessBoxEditor

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wengek/article/details/121409176

版权

python 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

先下载Tesseract4.0版本进行安装。

1.tesseract简单使用：

打印1.png中的文字以中文的形式到1.txt，编码形式默认为utf-8。

 tesseract 1.png -l chi_sim stdout 1

打印1.png中的文字以中文的形式到命令行，但中文会出现乱码。因为格式是utf-8，而命令行中读取文本是以ansi编码读取。

tesseract 1.png -l chi_sim stdout

2.tesseract训练：
1.安装 jTessBoxEditor，需要安装jdk-17_windows-x64_bin.exe环境才能运行。

2.png转为tif文件，这样才可以被 jTessBoxEditor box editor打开。

3.打开后是没有识别文字的，所以我们要先创建box文件再打开。
创建1.tif名为1的box文件，-l指定识别文字的语言为chi_sim中文：

tesseract 1.tif 1 -l chi_sim batch.nochop makebox

4.使用BoxEditor的open选项打开1.tif文件，会发现自动帮你用中文识别了。当然会很多不准确，这时需要自己手动逐个校正文字后保存。

5.保存后生成特征文件，后面合并要用。

生成tr文件

tesseract 1.tif 1 nobatch box.train

生成Character集合文件

unicharset_extractor 1.box

创建字体特征文件

echo name 0 0 0 0 0 >font_properties

生成shape文件

shapeclustering -F font_properties -U unicharset -O 1 1.tr

生成聚集字符特征文件

mftraining -F font_properties -U unicharset -O 1 1.tr

生成字符正常化特征文件

 cntraining 1.tr

6.合并上面创建的六个中，除font_properties文件的剩下五个文件。
首先给那五个文件名字加上前缀，比如加test：

for %a in (normproto pffmtable shapetable unicharset inttemp) do ren %a test.%a

然后再合并，刚刚前缀加的test，所以我们参数是test.：

 combine_tessdata test.

完成后就生成一个test.traineddata的语言文件了，放Tesseract-OCR\tessdata语言文件夹下。到时候用就指定语言参数就好了，比如：

 tesseract 1.png -l test stdout 1

这时候去看1.txt生成的内容就是你语言包训练出来的内容了！

参考文献：
Tesseract如何直接将识别结果输出到命令行
 利用jTessBoxEditor工具进行Tesseract-OCR样本训练
 使用Tesseract训练图片的方法
 Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率
 Tesseract-OCR的简单使用与训练
 Tesseract-OCR命令行使用

文哥博客_wengeblog

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Tesseract-ORC训练中文Windows命令行使用方法

先下载Tesseract4.0版本进行安装。1.tesseract简单使用：打印1.png中的文字以中文的形式到1.txt，编码形式默认为utf-8。 tesseract 1.png -l chi_sim stdout 1打印1.png中的文字以中文的形式到命令行，但中文会出现乱码。因为格式是utf-8，而命令行中读取文本是以ansi编码读取。tesseract 1.png -l chi_sim stdout2.tesseract训练：1.安装 jTessBoxEditor，需要安装jdk
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。