mac 安装tesseract、pytesseract, 实现图片里文字的识别

一, tesseract-OCR的介绍

1,tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。
2,用tesseract可以识别的图片中字体,主要有以下一些特点:

  • 使用一个标准字体
  • 可以使用复印或者拍照,但是必须字体要清晰,没有痕迹
  • 图片里没有歪歪斜斜的字体
  • 另外没有超出图片中的字体,也没有残缺的字体

二, mac tesseract-OCR的安装

1,安装有四种方式:

  • brew install --with-training-tools tesseract //安装tesseract, 同时安装训练工具
  • brew install --all-languages tesseract //安装tesseract,同时它还会安装所有语言
  • brew install --all-languages --with-training-tools tesseract //安装附加组件
  • brew install tesseract //安装tesseract,但是不安装训练工具,我选择这种方式进行安装

2,安装完tesseract后,进行测试:

  • tesseract -v
    在这里插入图片描述
  • tessera
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
可以使用Python的OCR库来识别图片中的文字。OCR(Optical Character Recognition)是一种将图像中的文字识别为文本的技术。 Python中常用的OCR库有: 1. pytesseract:基于Google的Tesseract OCR引擎,可以在Windows、Linux和Mac上使用。 2. OCRopus:一个OCR引擎,支持多种语言和字体。 3. Kraken:一个OCR引擎,支持多种语言和字体,尤其适合处理历史文献和手写文本。 4. EasyOCR:一个基于深度学习的OCR库,支持80多种语言,包括中文、日文、韩文等。 下面以pytesseract为例,介绍如何使用Python识别图片文字。 首先需要安装pytesseract和Pillow库: ```python pip install pytesseract pip install Pillow ``` 然后,安装tesseract OCR引擎。在Windows上,可以从https://github.com/UB-Mannheim/tesseract/wiki下载exe文件进行安装。在Linux上,可以使用以下命令进行安装: ```bash sudo apt-get update sudo apt-get install tesseract-ocr ``` 接下来,可以使用以下代码进行图片文字识别: ```python import pytesseract from PIL import Image # 打开图片 image = Image.open('image.png') # 识别图片中的文字 text = pytesseract.image_to_string(image, lang='eng') print(text) ``` 其中,`lang`参数指定了要识别的语言,这使用的是英文。如果要识别其他语言,可以将`lang`参数改为相应的缩写。例如,中文为`chi_sim`。 上述代码会将图片中的文字识别为字符串,并输出到控制台上。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值