OCR技术的文字定位技术是怎样的

本文链接：https://blog.csdn.net/wurmyq/article/details/90755466

一.COR应用场景
1.四类：
数字原生类：
淘宝商品图是最具有代表性的数字原生类文字图。
特点：1）最复杂多样：各种字体、背景、排列、组合等（MTWI挑战赛-最大的OCR竞赛）。
2）最有价值：商品信息载体
3）图片量最大：千亿图片，每日不停更新。

文档类：
文档类OCR需求非常广，涉及各种公务场景。
特点：1）100%识别率：人的输入准确率为98%，探索AI知识的极限；2）产品易用性：完善的功能，贴近业务需求；3）商业应用：文档类商业成熟。
拍照表单类：拍照表单类OCR价值非常大，非常有挑战性。
特点：1）场景&数据：数据具有隐私性，典型应用场景沉淀技术能力；2）产品通用性：专家知识+模板=文本理解，一套方案解决上百种类型。3）商业价值：和行业场景深度接入，AI能力改善行业数据流程。（提供定制的拍照表格识别和结构化云服务）
自然场景类： OCR学术研究的重点方向。
特点：1）数据：无具体数据类型定义，比如街拍数据；2）技术难点：不确定性，复杂环境干扰本质难点是定位和识别；3）商业价值：市场潜力巨大，如：车牌识别、摄像监控、自动驾驶。（技术能力领先，行业落地中）

2.OCR算法：
算法能力：
两种核心算法能力：1）通用文字识别；2）通用结构化（文字识别是结构化的基础）

基础算法：文字定位、文字识别

1.文字定位：定位文字在图像中的位置表征成行。
特征问题：背景等特征干扰问题，深度学习可以较好的解决特征问题。
Scale问题：物体定位的共性问题，字高范围8-300个像素
成行问题：文字定位特有问题。
（1）Scale问题：物体定位的共性问题

（2）成行问题：文字定位特有问题

2.文字识别
在文字定位的基础上，识别文字内容，同时，输出单字位置和识别率用于文本理解。