【Python】基于Tesseract OCR的文本识别方法及代码示例

最新推荐文章于 2025-03-10 16:21:44 发布

幸福清风

最新推荐文章于 2025-03-10 16:21:44 发布

阅读量1.7k

点赞数 16

分类专栏：图像处理文章标签： python 文本识别

本文链接：https://blog.csdn.net/xun527/article/details/145615797

版权

图像处理专栏收录该内容

27 篇文章

订阅专栏

一、OCR简介

什么是 OCR

OCR，即 Optical Character Recognition，是光学字符识别
的简称。它是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。简言之，OCR 技术可以将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工。

OCR 技术基于图像处理和模型识别技术，其应用场景非常广泛，包括文档数字化、数据提取、自动翻译、安全监控、智能客服等，还可以应用于医疗、金融、教育等领域。衡量一个 OCR 系统性能好坏的主要指标包括拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

技术路线：

Tesseract OCR

官网：Tesseract OCR - industry-fastest .Net OCR library

Tesseract OCR 是一款开源的文本识别（OCR）引擎。它主要用于识别图片中的文字，并将其转换为可编辑的文本。Tesseract OCR 是目前公认最优秀、最精确的开源 OCR 系统之一。

Tesseract OCR 支持多种语言，包括英文、中文、德文、法文等，并可以通过训练来扩展识别其他语言。它能够处理各种图像文件格式，如JPEG、PNG、TIFF 等。此外，Tesseract OCR 的准确性在同类产品中处于领先地位，对于印刷体文本的识别率高达 95% 以上。

Tesseract OCR 采用了一系列图像处理、特征提取和机器学习技术来实现文字识别的过程。它的主要功能是识别图像中的文字，并将其转换成机器可读的文本内容。它使用训练好的模型来识别字符，并通过上下文和语言模型来提高识别准确性。

值得一提的是，Tesseract OCR 提供了灵活的 API 接口，可以轻松集成到各种应用中。这款软件已经有 30 年的历史，最初是惠普实验室的一款专利软件，然后在2005年开源，自 2006 年后由 Google 赞助进行后续的开发和维护。

GitHub：GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

二、Python图片文本识别代码

这里我准备了一张图片，用 tesseract-ocr 识别该图片中的文字

python代码：

import os
import pytesseract
from PIL import Image


output_path = r'C:\Users\Administrator\Desktop\test.png'

image = Image.open(output_path)
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

结果：