从官网下载Tesseract-OCR 并安装之后。直接识别中文的话,效果其实并不理想 。
需要设置如下参数:
api.SetVariable("chop_enable","T");
api.SetVariable("use_new_state_cost","F");
api.SetVariable("segment_segcost_rating","F");
api.SetVariable("enable_new_segsearch","0");
api.SetVariable("language_model_ngram_on","0");
api.SetVariable("textord_force_make_prop_words","F");
至于参数的详细意思 可以参考 此链接。
这样一来后,会发现对宋体识别非常的好 ,几乎可以到9成以上(反正我试验是这样的)。但是对于一些全角的标点符号识别还是不太好。
而且如果需要对其他字体提供支持的话,就需要去训练我们的中文库了。
大致步骤如下:
1.用工具生成 tif 和box 文件(我推荐使用jTessBoxEditor 【这是个jar文件 ,确