1、环境准备(可参考https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/PPOCRLabel/README_ch.md)
1.1安装python3
1.2安装paddlepaddle
pip3 install --upgrade pip
# 如果您的机器安装的是CUDA9或CUDA10,请运行以下命令安装
python3 -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple
# 如果您的机器是CPU,请运行以下命令安装
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
1.3安装PPOCRLabel
pip install PPOCRLabel
2、PPOCRLabel启动(两种方式启动)
2.1 直接启动
(https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/PPOCRLabel/README_ch.md,可以参考)
安装PPOCRLabel成功后可以直接打开cmd执行命令PPOCRLabel --lang ch,标注数据中有中文的不要漏掉--lang ch,因为第一次执行命令时会下载对应的标注权重文件进行预标注,加了--lang ch才能下对应的中英文权重文件
2.2 通过python脚本来启动PPOCRLabel
如2.1方式启动失败,可以使用python脚本来启动,操作如下:
找到python3的安装目录(window 可以通过where python找到python安装目录)
在python3安装目录下找到该目录(Lib\site-packages\PPOCRLabel),在该目录下执行
python PPOCRLabel.py --lang ch;如图:
执行成功会在桌面如下图的程序页面
3)PPOCRLabel使用
1)点击左上角的文件可以看到打开目录的选项,可以打开你要标注的文件目录,成功后显示如下图
2)点击右下角的自动标注,这时ppocrlabel会把你的数据全部预标注了一边,再看右边的识别结果是否是正确,不正确就双击对应的识别结果重新修改,修改完成后点击有右下角的确认,这样就标注好一张图片了,如下图
4)导出结果:用户可以通过菜单中“文件-导出标记结果”手动导出,同时也可以点击“文件 - 自动导出标记结果”开启自动导出。手动确认过的标记将会被存放在所打开图片文件夹下的Label.txt中。在菜单栏点击 “文件” - "导出识别结果"后,会将此类图片的识别训练数据保存在crop_img文件夹下,识别标签保存在rec_gt.txt中[4],标注的目录下有新增文件和目录如下图