最近在研究ocr中文识别,调用百度的api接口识别,效果可以但是有次数限制,因此找到了百度开源工具,PaddleOCR,已经有封装好的paddleocr包,在此记录安装过程的坑。个人经验,只要出现某个模块缺少某个属性,那一定就是版本不匹配。
环境配置
在快速安装中环境配置有详细的说明,在进行paddleocr安装包之前,首先需要配置好环境。避坑:
- 首先需要保证Python版本是3.7,这一点很容易忽视!
- paddlepaddle最好安装cpu版本且版本是1.8+ ,推荐使用 PaddlePaddle 2.0rc1
python -m pip install paddlepaddle==2.0.0rc1 -i https://mirror.baidu.com/pypi/simple
- windows环境下,建议从这里下载shapely安装包完成安装, 直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。
安装测试
这里参考paddleocr package使用说明,直接用pip进行安装pip install “paddleocr>=2.0.1” # 推荐使用2.0.1+版本。
pip install paddleocr==2.0.2
安装完成之后就可以测试安装是否成功
from paddleocr import PaddleOCR, draw_ocr
ocr = PaddleOCR()
img = '1.jpg'
result = ocr.ocr(img)
for line in result:
print(line)
from PIL import Image
image = Image.open(img).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path =r'C:\\Users\AI-dev\anaconda3\PaddleOCR\doc\simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')
代码成功运行,得到结果如下
测试通过,可以开始玩耍了。。。