tesseract OCR锻炼新字体对图片的预处理和要求

智慧视觉

于 2013-09-10 19:36:20 发布

阅读量4.8k

点赞数

分类专栏： OCR 图像处理文章标签： OCR Tesseract 测试

图像处理同时被 2 个专栏收录

8 篇文章

订阅专栏

3 篇文章

订阅专栏

原址： http://www.myexception.cn/mobile/585725.html

tesseract OCR训练新字体对图片的预处理和要求

同tesseract OCR识别对图片有要求一样，在训练新的字符集或新的字体时，对图片也有一定要求，符合要求的图片，能大大提高训练的效率。

在图像处理方面，去除噪声，使训练的字符图片尽量连贯、清晰。

其他方面，通常的要求如下：

1. 在一幅图片内，字体统一，决不能将多种字体混合出现在一幅训练图片内；如果不是通过扫描文本获取的字符图片，这个条件很容易被忽视。

2. 理想条件下，同种字体的字符图片集中到一幅大的训练图片中，在同一页内；

3. 要保留一定的字符间距与行间距；

4. 字符高度（大小），只要满足高度最小条件即可，对于小写字符x，其高度要至少大于10个像素；

5. 对于非字母字符，如!@#$%^&(),.{}<>/?，不要集中在一起出现，原因是这样不利于tesseract找出文本行基线baseline，不利于文本高度及大小的检测，baseline检测是tesseract engine的第一步；

6. 一般每个字符需要10个样本，高频常见字符至少20个样本，不常见字符需要5个样本；

7. 对于同种字体，多页训练图片，可以在训练中，件用相同的方式合并tr文件和box文件，两类文件内的字符次序要相同，利于提高训练效果。

在获取训练字符图片方面，不一定非要从待识别图片中收集，可以利用word字符集找到对应字体，打印，扫描，获取训练图片，简单、方便。这个根据实际情况来应用。

tesseract中有这样一句话：

but note that there is no incremental training mode that allows you to add new training data to existing sets.

大意是，没有增量训练的方式，把新的训练数据加入现有的数据集。

有的提出，通过使用多个训练库联合使用，如参数 -l 之后 tesseract input.tif output -l eng+newfont , 其效果待测试。

博客等级

码龄18年

23
原创

33
点赞

62
收藏

79
粉丝

关注

私信

热门文章

分类专栏

最新评论

华为分享---手机往电脑发送失败的处理
LongWeigh: 我试了你说的方法还是传输失败，但是用了这个开启win功能的方法修复成功了：自 Windows 10 1709版本起，若用户 15 天未使用 SMB1 协议，则将自动卸载 SMB1 客户端(您可以在“设置”>“系统”>“关于”中确认Windows的具体版本)。由于 Huawei Share 采用 SMB1 协议作为文件共享协议，Windows侧卸载 SMB1 客户端后，电脑将无法通过 Huawei Share 发现、连接手机。若您使用的是 Windows 10 电脑，请前往“控制面板”>“程序”，在“程序和功能”目录下点击“启用或关闭 Windows 功能”，确保已勾选“SMB 1.0/CIFS 客户端”。
宇宙IDE插件vsix安装小技巧
智慧视觉: 示例插件，虽然安装上了，但是在打开时一直在初始化，基本不能用，看来17.4有某个重要更新依赖...... 在线升级VS2022后，再次打开就能用了，原先的插件无需重新安装，包括刚才的 qt-vsaddin-msvc2022-3.0.1.vsix
PIP安装本地离线包whl
智慧视觉: 通常需要新建一个空的虚拟环境以便获取全部的依赖项: python -m venv test_venv
【课程论文】一种基于消失点的单幅未校图像测量新方法
ssundaa: 您好，请问c点是代表什么
在MFC中显示OpenCV的Mat图像矩阵 ShowMatImgToWnd(GetDlgItem(IDC_ShowImg) , matFrame);
daisy allen: 楼主好，黑白图像感兴趣区域显示不行，我从一个黑白图像里面框出来的ROI图像，然后使用上面的任何一个方法，都没法显示，显示都是错乱的乱码。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。