前言
对于所有公司财务而言,用肉眼看发票,再将信息手动录入excel绝对是人间十大酷刑之一,对于这种流程清晰,机械重复的工作场景,最适合用python自动化办公技术+人工智能技术来解决。
场景描述
我去财务办公室实地考察了,发票都长这个样。
财务小姐姐需要填报的字段为:发票号、税额、销方名称。
那么需求就非常明确了,我们只需要把文件夹里面的一堆发票照片的发票号、税额、销方名称三项用OCR技术识别出来转化为字符串,填入excel表格中即可。
配置环境
我没有想到做完本次项目发现最大的难点竟然是配置环境。
pip安装以下库:
from PIL import Image as PI
from cnocr import CnOcr
import openpyxl
import pyocr
import io
import os
在安装cnocr时会报错,原因是没有安装Visual C++ 14.0。
下载地址:
https://visualstudio.microsoft.com/zh-hans/thank-you-downloading-visual-studio/?sku=BuildTools&rel=16
pip install cnocr
顺利安装cnocr。
cnocr 主要针对的是排版简单的印刷体文字图片,如截图图片,扫描件等。目前内置的文字检测和分行模块无法处理复杂的文字排版定位。如果要用于场景文字图片的识别&#