OCR技术的文字定位技术是怎样的

一.COR应用场景
1.四类:
数字原生类: 
淘宝商品图是最具有代表性的数字原生类文字图。 
特点:1)最复杂多样:各种字体、背景、排列、组合等(MTWI挑战赛-最大的OCR竞赛)。 
2)最有价值:商品信息载体 
3)图片量最大:千亿图片,每日不停更新。

文档类: 
文档类OCR需求非常广,涉及各种公务场景。 
特点:1)100%识别率:人的输入准确率为98%,探索AI知识的极限;2)产品易用性:完善的功能,贴近业务需求;3)商业应用:文档类商业成熟。 
拍照表单类:拍照表单类OCR价值非常大,非常有挑战性。 
特点:1)场景&数据:数据具有隐私性,典型应用场景沉淀技术能力;2)产品通用性:专家知识+模板=文本理解,一套方案解决上百种类型。3)商业价值:和行业场景深度接入,AI能力改善行业数据流程。(提供定制的拍照表格识别和结构化云服务) 
自然场景类: OCR学术研究的重点方向。 
特点:1)数据:无具体数据类型定义,比如街拍数据;2)技术难点:不确定性,复杂环境干扰本质难点是定位和识别;3)商业价值:市场潜力巨大,如:车牌识别、摄像监控、自动驾驶。(技术能力领先,行业落地中)

2.OCR算法:
算法能力: 
两种核心算法能力:1)通用文字识别;2)通用结构化(文字识别是结构化的基础) 
 
基础算法:文字定位、文字识别

1.文字定位:定位文字在图像中的位置表征成行。 
特征问题:背景等特征干扰问题,深度学习可以较好的解决特征问题。 
Scale问题:物体定位的共性问题,字高范围8-300个像素 
成行问题:文字定位特有问题。 
(1)Scale问题:物体定位的共性问题 
 
(2)成行问题:文字定位特有问题 
 
2.文字识别 
在文字定位的基础上,识别文字内容,同时,输出单字位置和识别率用于文本理解。 
 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值