-
为什么要使用tesstrain
Tesseract固然很方便,便于使用,在开源OCR识别项目中属于翘楚。但是它也有局限,即tesseract4.0以后,图片样本都是自动生成的,根据开发者设置的字体,自动生成,然后加些噪声,干扰等,但是实际情况下,我们可能是有大量的文字图片,
需要把我们手头的图片做为数据集,这个时候有另一个开源项目tesstrain可以供我们使用。
-
tesstrain如何使用
tesstrain github地址为
https://github.com/tesseract-ocr/tesstrain
,
首先要保证tesseract是可以正常work的。tesstrain只是把tesseract之前生成数据这部分用自己的数据集替代了,后面的流程都一致。如果使用在官网上也给了说明,这里也不在赘述,这里重点说一些细节和容易被人忽视的地方。
-
注意官网上的内容也许和实际有些出入,还是要以代码为准,因为代码一直在更新,可能相应说明没有更新,举例说明