图1 测评表图片
图2 测评表图片识别效果
问题背景:
党务工作中进行民主测评时,往往需要在正式的场合分发纸质的民主测评表,让单位人员在相应的位置打√,表格的样式往往与如下图例相似(图片来源于互联网,数据纯属虚构,用“√”模拟手写的对钩)。由于民主测评程序的敏感性,单位往往要求用纸质版表格统计,当测评人数较多时,会给统计带来很大的难度,相应的繁琐重复的工作和公差就不可避免。
目的:
为了让单位人员不为繁务所累,以更多精力投入主责主业,本文旨在通过视觉识别技术提取纸质表格的数据,得到可编辑的excel表格数据,从而方便统计。
方案及取舍:
要从表格图像中提取可编辑的表格数据,可以考虑以下方案:
1. 专用工具和软件:
使用WPS等工具将PDF或图像转换为可编辑的格式。优点:大多数用户来说较易获取,且识别效果非常好,甚至可以识别出合并单元格;缺点:需要开通会员。
2. 在线服务:
使用在线转换工具,如白描或docsmall将表格图像转换为Excel格式。优点:方便快捷;缺点:1.有的需要开通会员,2.不能批量处理表格图像,3.不是本地处理图片,涉及图片信息安全。
3. 定制脚本和工具:
编写Python脚本结合OpenCV和Pandas库,自定义处理和解析表格图像。优点:可根据需要自定义算法,自动化得到想要的统计数据,2.可以实现本地处理图片;缺点:1