一、Tesseract 引入
1、OCR 概述
-
OCR 全称 Optical Character Recognition,即光学字符识别
-
OCR 是一种将图像中的文字转换为文本的技术,它通过分析图像中的像素模式,识别出文字内容
2、Tesseract 概述
-
Tesseract 是一个开源的光学字符识别(OCR)引擎
-
Tesseract 最初由惠普实验室开发,后来由 Google 维护和进一步开发
-
Tesseract 能够从图像或文档中提取文本内容,支持多种语言和文字
二、Tesseract 下载与安装
1、Tesseract 下载
- 访问 Tesseract 的官方 GitHub 页面:
https://github.com/tesseract-ocr/tesseract
、https://github.com/tesseract-ocr/tesseract/releases

2、Tesseract 安装









3、检查 Tesseract 安装
- 安装完毕后配置 Tesseract 的环境变量,在 CMD 中,执行指令
tesseract --version
