Tesseract5.0.0+OpenCV3+VS2019安装、字符识别学习
背景
做一个字符检测比对的小项目,需要借助Tesseract的OCR进行开发。
Visual Studio 2019安装
详见另一篇:https://blog.csdn.net/weixin_46293955/article/details/105961344
OpenCV3安装、配置
Tesseract v5.0.0安装
tesseract v5.0.0 64位安装包下载链接: https://download.csdn.net/download/weixin_46293955/12531753
双击安装程序
点击Next
点击I Agree
选择电脑用户,点击Next
勾选组件
选择语言包:符号、数字、简体中文、简体中文(复杂)、繁体中文、繁体中文(复杂)、英文(复杂)。
未选择的情况下自带英文、数字、符号。
自定义安装路径,这里安装到D盘Tesseract-OCR文件夹中
点击Install按钮安装
报错是由于语言包无法下载,点击确定跳过
等待安装完成
点击Finish安装完成
加入系统环境变量Path
新建环境变量TESSDATA_PREFIX,路径指向tessdata文件夹
安装完后文件如下图:
查看是否安装成功,在Windows PowerShell中下指令tesseract,出现如下回传,则表示安装成功。
查看支持的语言,在Windows PowerShell中下指令tesseract --list-langs,此处语言放在tessdata文件夹中。
语言包下载链接: 待更新
在Windows PowerShell中下指令识别字符
放置一张图片至D盘,命名为ROI.jpg(图片为在百度随机截取,侵删)
在Windows PowerShell中下指令tesseract D:\ROI.jpg D:\1
回传如下,可以看到识别为空。原因是文字太小或者太模糊(图截得很小)