PaddleOCR详细实现文档教程

最新推荐文章于 2025-03-24 14:38:31 发布

your___

最新推荐文章于 2025-03-24 14:38:31 发布

阅读量5.4k

点赞数 3

分类专栏： CV 文章标签：深度学习计算机视觉 python paddlepaddle ocr

本文链接：https://blog.csdn.net/your___/article/details/119995724

版权

CV 专栏收录该内容

3 篇文章

订阅专栏

PaddleOCR详细实现流程

快速安装（Windows版）

1安装PaddlePaddle

如果您的机器是CPU，请运行以下命令安装：
python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

如果您的机器安装的是CUDA，因版本不同则具体安装命令不同，详细请参考官网安装链接：
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html

2克隆PaddleOCR repo代码

【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR 如果因为网络问题无法pull成功，也可选择使用码云上的托管：git clone https://gitee.com/paddlepaddle/PaddleOCR
注：码云托管代码可能无法实时同步本github项目更新，存在3~5天延时，请优先使用推荐方式。

3安装第三方库

cd PaddleOCR

pip install -r requirements.txt

若报错则尝试使用pip install xxx对各个包进行逐一安装）
注意，windows环境下，建议从https://www.lfd.uci.edu/~gohlke/pythonlibs/下载shapely安装包完成安装，直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。

文本检测

1数据准备

以使用icdar2015数据集为例（来源https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw#list/path=%2F 提取码：2bpi），将下载到的数据集解压到工作目录下，假设解压在 PaddleOCR/train_data/ 下，train_data目录为自己新建，则此目录下应包含两个文件夹和两个文件：

在这里插入图片描述

2启动训练

首先下载模型backbone的pretrain model，PaddleOCR的检测模型目前支持两种backbone，分别是MobileNetV3、ResNet_vd系列，可以根据需求使用PaddleClas中的模型更换backbone，对应的backbone预训练模型可以从https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.1/doc/doc_ch/algorithm_overview.md 主页中找到下载链接。
在这里插入图片描述
以下载最后一个为例：会下载得到，并将其解压，然后将此文件夹名改为pretrain_models，将其置于PaddleOCR下，应与train_data位于同级目录，如下：

此外重要的步骤，因为安装的是cpu版本，需要修改configs/det/det_r50_vd_sast_icdar15.yml配置文件，将配置文件中的 use_gpu 字段修改为false. 此外还有其它几个需要修改的参数还应做出如下修改：
在这里插入图片描述

其中箭头所指处可微调。
修改好配置文件后运行如下语句就可以启动训练了：

python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.pretrain_weights=./pretrain_models/ResNet50_vd_ssld_pretrained/best_accuracy

或者

python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Optimizer.base_lr=0.0001

3指标评估

根据配置文件det_r50_vd_sast_icdar15.yml中save_res_path指定的测试集检测结果文件，计算评估指标。评估时设置后处理参数box_thresh=0.5，unclip_ratio=1.5，使用不同数据集、不同模型训练，可调整这两个参数进行优化。训练中模型参数默认保存在Global.save_model_dir目录下。在评估指标时，需要设置Global.checkpoints指向保存的参数文件。
运行如下评估命令：

python tools/eval.py -c configs/det/det_r50_vd_sast_icdar15.yml  -o Global.checkpoints="./output/sast_r50_vd_ic15/latest" PostProcess.box_thresh=0.5 PostProcess.unclip_ratio=1.5

注：box_thresh、unclip_ratio是DB后处理所需要的参数，在评估EAST模型时不需要设置。

4测试检测效果

测试文件夹下所有图像的检测效果：

python tools/infer_det.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.infer_img="./doc/imgs_en/" Global.pretrained_model="./output/sast_r50_vd_ic15/latest"

文本识别

1数据准备

此部分依然使用icdar2015数据集，注意与文本检测部分数据集不同。下载来源：https://rrc.cvc.uab.es/?ch=4&com=downloads 首次登录需注册。
在这里插入图片描述

训练集、测试集以及标签都应放在train_data目录下，此外应格外注意，官网上下载的数据集标签文件中文件名与内容之间是用“ ”而不是“\t”分割的，且有“,”和“”””,应将其去掉且转换为“\t”分割，可借助于excel分列进行转换，此外转换后的标签txt文件编码格式应为“UTF-8”，正确的格式见右上图。

2启动训练

在这里插入图片描述
下载预训练模型，以最后一个SRN为例：下载完成后将其解压在pretrain_models目录下。
配置文件以configs/rec/rec_icdar15_train.yml为例，需做出以下修改：

然后运行以下命令开始训练：

python tools/train.py -c configs/rec/rec_icdar15_train.yml

3评估

python tools/eval.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./output/rec/ic15/latest

4预测

使用 PaddleOCR 训练好的模型，可以通过以下脚本进行快速预测。预测使用的配置文件必须与训练一致，使用如下命令进行英文模型预测，默认预测图片存储在 infer_img 里，通过 -o Global.checkpoints 指定权重：

python tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.pretrained_model=./output/rec/ic15/latest Global.load_static_weights=false Global.infer_img=doc/imgs_words/en/word_1.png