背景:tesseract是一个非常有名的图像字符识别软件,但是基于网上交叉编译和移植到ARM平台上运行成功的例子比较少,所以我抛砖引玉,希望能对大家有所帮助。
交叉移植tesseract过程记述以及总结
一:tesseract软件简述:
tesseract-ocr是一个比较有名的开源图像识别软件,最早是由惠普(HP)公司创造,但是被惠普束之高阁十年之后,HP公司终于良心发现,于是在2006年将其贡献给开源社区,目前由google公司在维护,有了如此强大的后盾,我相信tesseract的明天会更加美好。
开源项目地址:http://code.google.com/p/tesseract-ocr/
下载地址:http://code.google.com/p/tesseract-ocr/downloads/list
安装说明:http://code.google.com/p/tesseract-ocr/wiki/ReadMe
我下的是目前最新版的tesseract-3.00.tar.gz,在开始交叉编译之前先要搞清楚其依赖:
1.依赖:
基本依赖:libpng, libjpeg, zlib……(各种图片格式,如果有了leptonica库文件的支持,这部分暂时可以不去理会)
严重依赖:libtiff和leptonica(如果不安装的话,tesseract不支持识别压缩的tif图像)
二:所需软件资源:
图像字符识别软件(OCR):tesseract3.0—目前最新版,支持六种语言,完美支持中文识别。
图像集合:leptonica-1.68—关于这个软件具体还不是很清楚,但是如果没有这个的话,tesseract3.0仅仅支持.tif