Mac系列之:Mac安装tesseract和python使用pytesseract、pillow包提取图片中中文

一、安装tesseract

brew install tesseract

==> Installing dependencies for tesseract: libarchive
==> Installing tesseract dependency: libarchive
==> Pouring libarchive-3.6.1.catalina.bottle.tar.gz
🍺  /usr/local/Cellar/libarchive/3.6.1: 62 files, 3.6MB
==> Installing tesseract
==> Pouring tesseract--5.1.0.catalina.bottle.tar.gz
==> Caveats
This formula contains only the "eng", "osd", and "snum" language data files.
If you need any other supported languages, run `brew install tesseract-lang`.
==> Summary
🍺  /usr/local/Cellar/tesseract/5.1.0: 58 files, 30.0MB
==> Caveats
==> tesseract
This formula contains only the "eng", "osd", and "snum" language data files.
If you need any other supported languages, run `brew install tesseract-lang`.

二、查看tesseract版本

成功安装后查看tesseract版本

tesseract --version
tesseract 5.1.0
 leptonica-1.82.0
  libgif 5.2.1 : libjpeg 9e : libpng 1.6.37 : libtiff 4.3.0 : zlib 1.2.11 : libwebp 1.2.2 : libopenjp2 2.4.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.6.1 zlib/1.2.11 liblzma/5.2.5 bz2lib/1.0.6 liblz4/1.9.3 libzstd/1.5.2
 Found libcurl/7.64.1 SecureTransport (LibreSSL/2.8.3) zlib/1.2.11 nghttp2/1.39.2

三、安装过程遇到的报错解决方法

错误一:

    • 安装tesseract的过程中报缺少依赖的错误
  • Error: No such file or directory @ rb_sysopen - /Users/f/Library/Caches/Homebrew/downloads/266702d9bc59c9dfde27ce555b4a3f9ed9d0de770ba697e62a111d74ee0a4231–openjpeg-2.4.0.catalina.bottle.tar.gz
  • 针对这类错误单独安装缺少的包即可
  • brew install openjpeg

错误二:

  • 单独安装依赖出现如下提示:
  • Disable this behaviour by setting HOMEBREW_NO_INSTALL_CLEANUP. Hide these hints with HOMEBREW_NO_ENV_HINTS (see man brew).
  • 执行如下命令即可:
  • export HOMEBREW_NO_INSTALL_CLEANUP=TRUE

三、下载中文包

在这里插入图片描述

四、中文包存放目录

  • /usr/local/Cellar/tesseract/{tesseract版本}/share/tessdata
cd /usr/local/Cellar/tesseract/5.1.0/share/tessdata

在这里插入图片描述

五、查看全部语言库

tesseract --list-langs
List of available languages in "/usr/local/share/tessdata/" (4):
chi_sim
eng
osd
snum

六、python 安装pytesseract和pillow

pip install pytesseract
pip install pillow

七、识别图片中文字体

import pytesseract
from PIL import Image
# 读取图片
im = Image.open('/Users/f/PycharmProjects/firstProject/a/a.png')
# 识别文字,并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print(string)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

快乐骑行^_^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值