Tesseract-OCR 那些事

      从官网下载Tesseract-OCR 并安装之后。直接识别中文的话,效果其实并不理想 。

需要设置如下参数:

	api.SetVariable("chop_enable","T");
	api.SetVariable("use_new_state_cost","F");
	api.SetVariable("segment_segcost_rating","F");
	api.SetVariable("enable_new_segsearch","0");
	api.SetVariable("language_model_ngram_on","0");
	api.SetVariable("textord_force_make_prop_words","F");

至于参数的详细意思 可以参考 此链接

     

       这样一来后,会发现对宋体识别非常的好 ,几乎可以到9成以上(反正我试验是这样的)。但是对于一些全角的标点符号识别还是不太好。

而且如果需要对其他字体提供支持的话,就需要去训练我们的中文库了。


     大致步骤如下:

1.用工具生成 tif 和box 文件(我推荐使用jTessBoxEditor 【这是个jar文件 ,确

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值