Tesseract-OCR 那些事

最新推荐文章于 2023-11-04 21:43:35 发布

天使爱撒谎

最新推荐文章于 2023-11-04 21:43:35 发布

阅读量5.2k

点赞数 4

分类专栏： Tesseract-OCR 文章标签： Tesseract OCR 训练中文识别

本文链接：https://blog.csdn.net/wlj613613/article/details/16839949

版权

从官网下载Tesseract-OCR 并安装之后。直接识别中文的话，效果其实并不理想。

需要设置如下参数:

	api.SetVariable("chop_enable","T");
	api.SetVariable("use_new_state_cost","F");
	api.SetVariable("segment_segcost_rating","F");
	api.SetVariable("enable_new_segsearch","0");
	api.SetVariable("language_model_ngram_on","0");
	api.SetVariable("textord_force_make_prop_words","F");

至于参数的详细意思可以参考此链接。

这样一来后，会发现对宋体识别非常的好，几乎可以到9成以上（反正我试验是这样的）。但是对于一些全角的标点符号识别还是不太好。

而且如果需要对其他字体提供支持的话，就需要去训练我们的中文库了。

大致步骤如下：

1.用工具生成 tif 和box 文件（我推荐使用jTessBoxEditor 【这是个jar文件，确

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天使爱撒谎

关注关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Tesseract-OCR 那些事

从官网下载Tesseract-OCR 并安装之后。直接识别中文的话，效果其实并不理想。需要设置如下参数: api.SetVariable("chop_enable","T"); api.SetVariable("use_new_state_cost","F"); api.SetVariable("segment_segcost_rating","F"); api.SetVariab
复制链接

扫一扫