序言
笔者参加百度网盘AI大赛表格结构检测目前位列第七名,现将方案给出,欢迎批评指正,如有想上车参赛的同学请私信联系,另外提供代码和模型预测文件。
比赛介绍
大赛背景
百度网盘AI大赛——图像处理挑战赛是百度网盘开放平台面向开发者发起的图像处理挑战赛事,旨在基于个人云存储的生态能力开放,通过比赛机制,鼓励选手结合当下的前沿图像处理与计算机视觉技术,设计合适模型,并提升模型的效果,助力互联网用户更便捷地进行数字生活、学习和工作,为中国开源生态建设贡献力量。 本次图像处理挑战赛以线上比赛的形式进行,参赛选手在规定时间内提交基于评测数据集产出的结果文件,榜单排名靠前并通过代码复查的队伍可获得高额奖金。百度网盘开放平台致力于为全球AI开发者和爱好者提供专业、高效的AI学习和开发环境,挖掘培养AI人才,助力技术产业生态发展。
赛题介绍
赛题名称:表格检测进阶-表格的结构化
随着票据、名单等带有表单、表格的文件被广泛应用,将纸质文件转化成电子数据并保存管理成为了很多企业的必然工作。传统人工录入的方式效率低、差错多、流程长,如果能通过技术处理,实现表格图片的结构化展现,则可以很大程度降低成本,提高效率以及使用体验。本次比赛希望各位选手能通过OCR等技术解决此痛点问题,识别表格图片的内容与坐标,精准还原纸质数据。
奖项设置
奖金数量奖金(税后)
一等奖1名2万元人民币+荣誉证书
二等奖2名2千元人民币+荣誉证书
三等奖3名5百元人民币+荣誉证书
优秀奖4名200元京东E卡+荣誉证书
*此外还可获得百度网盘实习绿色通道、百度网盘技术支持等。
方案解读
基本信息解读
根据赛题介绍,赛题属于计算机视觉问题中的目标检测问题,具体介绍如下。
计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为能够投入生产的人工智能和机器学习技术,这方面人才缺口巨大,无论是产业界还是学界都有相当多的机会。
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。
基于这次赛题的特征和主办方,我们考虑采用PaddleDetection来完成赛题,简要介绍如下:
PaddleDetection是一个基于PaddlePaddle的目标检测端到端开发套件,在提供丰富的模型组件和测试基准的同时,注重端到端的产业落地应用,通过打造产业级特色模型|工具、建设产业应用范例等手段,帮助开发者实现数据准备、模型选型、模型训练、模型部署的全流程打通,快速进行落地应用。
# 克隆PaddleDetection仓库
import os
if not os.path.exists('PaddleDetection'):
!git clone https://gitee.com/paddlepaddle/PaddleDetection
# 安装其他依赖
%cd PaddleDetection
! pip install -r requirements.txt
# 编译安装paddledet
! python setup.py install
模型使用
经过实验和调整,在这次比赛中,我主要使用下列模型进行组合:
由于本次比赛要求每个图片识别时间不能多于两秒,所以首先考虑的是轻量级卷积模型LCNet此外还使用了LCPAN以及PicroHead。
训练过程
为加快训练速度,我们使用V100 16G进行训练,在这基础上,我们还对训练过程进行了优化和模型组合尝试,最终模型提交得分如下:
结语
本文主要简略介绍个人参赛至今为止的进展和经验,想上车的小伙伴欢迎评论区留言,后续将继续更新进展和尝试更多模型参数。