【机器视觉】tesseract基本使用

1.1tesseract

1.1.1基础知识

主要用来文字图片的识别,验证码的识别等。就是将图像翻译成文字,也就是文字识别,是由googl公司推出的

安装包下载地址     训练数据集下载地址

使用方式

  • 百度搜索:tesseract,下载该软件,安装
  • 设置该软件的环境变量
  • 在含有想要识别的文件中打开cmd,使用命令tesserct 图片名.png 文本文件名
  • 如果想要识别中文数据,我们可以通过更改训练数据的包来更改。首先,在tesseract中找到目录tessdata,将该数据集中的eng.traineddata文件替换成我们从网上下载的训练集,名字要和原来的文件的名字一样。

1.1.2tesseract使用案例

需要识别的图片

执行的命令

  • tesseract meiwen.png meiwen

识别出的文本

1.2pytesseract库

1.2.1基础知识

如果上述可以成功完成,我们就可以使用代码实现验证码的自动化识别了,首先安装:pip3.6 install pytesseract,然后进行下列代码操作。如果遇到没有找到pytesseract的错误,我们可以重启pycharm解决(原因:你虽然设置了环境变量,但是pycharm并不知道你已经设置了。必须重启pycharm重新加载环境变量。)

  • driver.save_screenshot('./poem.png')  # 将浏览器对象保存在该路径下
  • image=Image.open('./poem.png')  # 打开该路径下的图片文件
  • result = pytesseract.image_to_data(image)  # 解析该图片的信息
  • result = pytesseract.image_to_string(image)  # 识别该图片的文本内容
  • image.show()  # 展示打开的图片文件
  • driver=webdriver.Chrome(default='python解释器路径')  # 创建Chrome对象
  • code=driver.page_source  # 页面源码获取到的是页面源码

1.2.2使用案例

pytesseract案例

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值