Tesseract-OCR字库制作

最新推荐文章于 2021-12-30 16:35:11 发布

FNR_S

最新推荐文章于 2021-12-30 16:35:11 发布

阅读量434

点赞数

分类专栏：计算机视觉文章标签： ocr tesseract 验证码识别字库制作字库训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wujizhishang/article/details/107871597

版权

计算机视觉专栏收录该内容

1 篇文章 0 订阅

订阅专栏

安装：url:https://tesseract-ocr.github.io/tessdoc/Home.html

下载网址：V5.00--->WIN32,WIN64

依赖：JDK -->https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

jTessBoxEditor: Download 直接双击trian.bat即可启动。

将训练数据打包成tiff格式，如果有多个图片可以用jTessBoxEditors合并成单个，图片可以利用Windows自带的画图工具另存为tif格式。
将训练数据生成box格式
用jTessBoxEditor打开tiff文件，根据实际情况进行修正，可能会分页需要逐页调整
产生字符特征文件，生成.tr文件
计算字符集，生成一个unicharset文件
定义字体特征文件，新建一个文件font_properties。里面内容写入normal 0 0 0 0 0
聚集字符特征
合并5个文件

*****************************************************************分割线*********************************************************************

1. 生成box文件命令格式

【语法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
【语法】：lang为语言名称，fontname为字体名称，num为序号；在tesseract中，一定要注意格式

注：如果需要屏蔽错误加option ，"--psm 7"

.\tesseract.exe .\okcancel.normal.exp0.tif okcancel.normal.exp0 -l chi_sim --psm 7 batch.nochop makebox

2. 生成.tr文件

【语法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] nobatch box.train

注：如果需要屏蔽错误加option ，"--psm 7"

.\tesseract.exe .\okcancel.normal.exp0.tif --psm 7 okcancel.normal.exp0 nobatch box.train

3. 生成unicharset文件

【语法】：unicharset_extractor [lang].[fontname].exp[num].box

.\unicharset_extractor.exe .\okcancel.normal.exp0.box

4. 聚集字符特征

三个命令：

【语法】：shapeclustering -F font_properties -U unicharset [lang].[fontname].exp[num].tr

.\shapeclustering.exe -F .\font_properties -U .\unicharset .\okcancel.normal.exp0.tr

【语法】：mftraining -F font_properties -U unicharset -O unicharset [lang].[fontname].exp[num].tr

.\mftraining.exe -F .\font_properties -U .\unicharset -O unicharset .\okcancel.normal.exp0.tr

【语法】：cntraining [lang].[fontname].exp[num].tr

.\cntraining.exe .\okcancel.normal.exp0.tr

运行以上命令后会生成5个文件。

5. 合并5个文件

重命名这5个文件，再前面加"normal."

运行如下命令，即可生成训练字库数据

.\combine_tessdata.exe normal.

可以在上图中看到normal.traineddata即为最终的字库。

【参考】

使用tesseract训练自己的字库提高识别率

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tesseract-OCR字库制作

安装：url:https://tesseract-ocr.github.io/tessdoc/Home.html下载网址：V5.00--->WIN32,WIN64 依赖：JDK -->https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html jTessBoxEditor:Download 直接双击trian.bat即可启动...
复制链接

扫一扫

专栏目录

FNR_S CSDN认证博客专家 CSDN认证企业博客

码龄13年

47: 原创

10万+: 周排名

16万+: 总排名

11万+: 访问

: 等级

1389: 积分

55: 粉丝

80: 获赞

54: 评论

458: 收藏

私信

关注

热门文章

分类专栏

Windows脚本 2篇
LeetCode 4篇
计算机视觉 1篇
ROS 2篇
C/C++ 18篇
C# 8篇
Qt 1篇
DSP
MATLAB 1篇
随笔闲谈 1篇
Linux之Ubuntu 11篇
Linux之CentOS 1篇
Python 2篇
TensorFlow 1篇
通讯协议 5篇
Git 1篇
嵌入式单片机 2篇

最新评论

WIN7下C#调用大漠插件
seabirdstb: 是的，我就是用这个方法，用了好几年了，第四部我不用，我写辅助是自己用的，所以手动注册。最近碰到个问题，因为只能32位编译，现在要用dm汇编，而游戏是64位，无法使用x64汇编。用不了64位寄存器，所以无法调用远程call。
J1939 入门教程
Tomas__chao: 是的，协议里有规定
J1939 入门教程
FNR_S: 如果我没记错的话第一帧就包含后面的帧数信息的
J1939 入门教程
Tomas__chao: 多帧传输，如果长度刚好是7的倍数，接收方怎么判断最后一帧
J1939 入门教程
卢卢下士: 说的好，之前看了许多文章都没有说明PGN和CANID（在某些角度上）一样起着给报文分类的作用。只是告诉PGN是怎么定义和计算的，这非常愚蠢。在没有实际应用经历的情况下，很难猜到如何去设计以及使用PGN

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。