OCR识别——百度飞桨PaddleOCR测试及环境搭建详解

本文链接：https://blog.csdn.net/weixin_44901043/article/details/123531831

本文介绍了如何在Python环境下设置PaddleOCR，包括安装Conda、创建环境、安装PaddlePaddle，以及通过代码示例测试其文本检测和识别功能。此外，还详细讲解了PP-OCR模型的优化策略和应用场景，如文档布局分析与表格识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

PaddleOCR 概述
一、Python 环境设置
三、代码测试

PaddleOCR 概述

PaddleOCR 包含富文本检测、文本识别和端到端算法。结合现实场景和行业经验，PaddleOCR 选择 DB 和 CRNN 作为基本检测识别模型，经过一系列优化策略，提出了一系列模型，命名为 PP-OCR，用于工业应用。PP-OCR模型针对一般场景，形成不同语言的模型库。基于 PP-OCR 的能力，PaddleOCR 发布了文档场景任务的 PP-Structure 工具包，包括布局分析和表格识别两大任务。为打通产业落地全流程，PaddleOCR提供大规模数据生产工具和多种预测部署工具，帮助开发者快速将想法变为现实。

一、Python 环境设置

1.安装 conda
注意：使用PaddlePaddle需要先安装python环境，这里我们选择python集成环境conda工具包
conda 是一个常用的 python 包管理器
安装 conda 后，可以安装 python 环境，以及 numpy 等所需的工具包环境。
下载路径https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda
在这里插入图片描述
下载完后安装。安装之后在cmd命令行查看conda命令是否可以正常使用

2.打开终端并创建Conda环境
打开 Anaconda Prompt 终端：左下方 Windows 开始菜单 -> Anaconda3 -> Anaconda Prompt 启动控制台
在这里插入图片描述
创建一个新的 Conda 环境

#在命令行输入以下命令，创建一个名为 paddle_env 的环境
#这里为了加快下载速度，使用清华源码
conda create --name paddle_env python=3.8 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
 #这是一行命令

此命令将创建一个名为 paddle_env 且 Python 版本为 3.8 的可执行环境，这将需要一段时间，具体取决于网络状态。然后命令行会输出提示，输入y回车继续安装
在这里插入图片描述

3.激活刚刚创建的Conda 环境
要激活您刚刚创建的 Conda 环境，请在命令行中输入以下命令。

#激活 paddle_env 环境
conda activate paddle_env
#查看python的当前位置
where python

4.安装PaddlePaddle 2.0
如果您的机器上安装了cuda9或cuda10，请运行以下命令进行安装

python3 -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

如果您的计算机上没有可用的GPU，请执行以下命令安装CPU版本

python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

三、代码测试

# 显示结果
from PIL import Image

if __name__ == '__main__':

    # Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
    # 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
    ocr = PaddleOCR(use_angle_cls=True, use_gpu=False, lang="ch")  # need to run only once to download and load model into memory
    img_path = './myImgs/001.jpg'
    result = ocr.ocr(img_path, cls=True)
    for line in result:
        print(line)



    image = Image.open(img_path).convert('RGB')
    boxes = [line[0] for line in result]
    txts = [line[1][0] for line in result]
    scores = [line[1][1] for line in result]
    im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
    im_show = Image.fromarray(im_show)
    im_show.save('result.jpg')