OCR竞赛实践(二)

OCR竞赛实践(二)

1.图像处理

输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

必须先去除噪声,通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。
其中,摄像头拍摄的图片,大多数是彩色图片,彩色图像采用RGB三通道分解,所含的信息量巨大,对于图片的内容,我们可以简单的分为前景和背景,为了让计算机更快的,更好的识别文字,我们可以简单地分为前景和背景,为了让计算机更快的,更好的识别文字,我们需要对彩色图进行处理,使图片只剩下前景信息和背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图。

2.多模态处理

本次比赛提供的csv文件中,目的是通过图像识别出文字信息,类似于多模态的任务,而不是简单的目标检测等分类任务,因此对图像中文字的识别需要格外用心,精度要求很高,同时识别出的文字信息,未来也可以做为多模态系统的nlp部分,达到cv与nlp的结合

3.优化思路

调整模型超参数并重新finetune

改进检测流程(前置方向检测等)

尝试在其它模型基础上finetune

添加均衡化和透视变换等预处理

搭建更优的模型结构并从零训练

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值