大厂OCR-图片文字识别功能说明,百度(baidu)OCR功能列表说明

OCR (Optical Character Recognition,光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

简单来说就是将图片中的文字识别出来!

需求:业务上,客户送货过程中会携带一张打印的送货单,包含本次送货的明细,并需要把送货单明细录入到业务系统中,希望通过技术手段,高效准确的录入系统。

现状:业务上,收货人员需要核对当前货物,并将货物明细输入到业务系统中,手动输入系统。这个过程收货人员输入货物明细就是一个漫长,并且易出错的过程,并且效率低下。而另外一边的送货人员,天气炎热,多等待一秒都是煎熬,恨不得卸货之后就开车走人.... 我们希望系统能提供帮助,将纸质送货单明细快速录入系统

解决方案: 最终通过 ‘表格文字识别’ 实现送货单明细的识别,录入系统前,将识别的货物明细给收货员检查一遍,有误的地方修正,然后保存数据库,这是初期解决方案,后期还在探索如果提高识别率,比如将货物的单位数据(单位都是固定的词典数据),导入到系统,提高这部分数据的识别准确度

梳理下目前百度OCR技术,功能列表如下:

包括 通用文字识别, 办公文档识别,网络图片文字识别,数字识别,手写文字识别,表格文字识别,二维码识别(条形码识别) 7大功能块!!

1. 通用文字识别
基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务
https://cloud.baidu.com/product/ocr/general


·高精度版
在通用文字识别(标准版)的基础上,提供更高精度的识别服务,支持更多语种识别(丹麦语、荷兰语、马来语、瑞典语、印尼语、波兰语、罗马尼亚语、土耳其语、希腊语、匈牙利语),并将字库从1w+扩展到2w+,能识别所有常用字和大部分生僻字

·标准版
对图片中的文字进行检测和识别,支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言,并支持中、英、日、韩四语种的类型检测

·高精度含位置版
在通用文字识别(高精度版)的基础上,返回文字在图片中的位置信息,方便进行版式的二次处理

·标准含位置版
在通用文字识别(标准版)的基础上,返回文字在图片中的位置信息,方便进行版式的二次处理

应用场景分析:

··拍照/截图识别
使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验


··内容审核与监管
自动提取图像中的文字内容,结合文本审核技术识别违规内容,提示相应风险,协助进行违规处理,可应用于电商广告审核、舆情监管等场景,帮助企业有效规避业务风险


··视频内容分析
检测识别视频中的字幕、标题、弹幕等文字内容,并根据文字位置判断文字类型,可应用于视频分类和标签提取、视频内容审核、营销分析等场景,有效提升内容分类、检索的效率


··纸质文档电子化
识别提取各类医疗单据、金融财税票据、法律卷宗等纸质文档中的文字信息,并可基于位置信息进行比对、结构化处理,提高信息录入、存档、检索的效率

2. 办公文档识别
可对办公类文档的版面进行分析,输出图、表、标题、文本的位置,并输出分版块内容
https://cloud.baidu.com/product/ocr/doc_analysis_office


·文档版面分析
输出文档图片中图、表、标题、文本的位置和文本信息

·文档混排识别
支持中文、英文两种语言,适配纯手写、纯印刷和手写印刷混排多种场景

应用场景分析:

·办公场景文档识别
对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,可以分别返回标题、图片、表格、文本的信息,并支持返回单行、单字结果,方便对文档类图片进行结构化分析

 

3. 网络图片文字识别
针对网络图片进行专项优化,对艺术字体或背景复杂的文字内容具有更优的识别效果
https://cloud.baidu.com/product/ocr_others/webimage

.网络图片文字识别(基础版)
支持识别艺术字体或背景复杂的文字内容,仅返回文字信息

.网络图片文字识别(含位置版)
除文字信息外,还可返回文字的位置信息、行置信度、单字符内容和位置等

应用场景分析:

··内容审核
使用网络图片文字识别技术,实现对艺术字体或背景复杂的文字内容进行识别,应用于社交、电商、短视频、直播等场景,同时结合图像审核技术对图片或视频进行审核,识别其中存在的违规、广告内容,有效规避业务风险

4. 数字识别
识别图片中的数字,适用于手机号提取、快递单号提取、充值号码提取等场景
https://cloud.baidu.com/product/ocr_others/numbers

应用场景分析:

··快递面单识别
使用数字识别技术,对快递面单、物流单据、外卖小票中的电话号码进行识别和提取,大幅度提升收货人信息的录入效率,方便进行收件通知,同时可识别纯数字形式的快递三段码,有效提升快件分拣速度


··仪表读数识别
使用数字识别技术,对各类仪器仪表的读数进行识别和提取,可应用于对仪器仪表读数具有定时记录、数据统计、实时监控等需求的场景,有效降低人工录入成本,控制仪器使用风险

5. 手写文字识别
支持对图片中的手写中文、手写数字进行检测和识别,针对不规则的手写字体进行专项优化,识别准确率可达90%以上
https://cloud.baidu.com/product/ocr_others/handwriting

应用场景分析:

··智能阅卷
使用手写文字识别技术,对学生日常作业及考试试卷中的手写内容进行自动识别,实现学生作业、考卷的线上批阅及教学数据的自动分析,大幅度提升教师工作效率及质量,促进教学管理的数字化和智能化


··手写表单电子化
使用手写文字识别技术,实现对活动签到表、信息登记表、数据统计表等纸质表单内手写文字的识别,满足对纸质表单内信息进行统计整理、数据计算的需求,有效降低人工录入成本,便于登记信息的保存和传输


··书摘、笔记电子化
使用手写文字识别技术,实现对手写书摘、读书笔记、课堂笔记等内容的识别,实现对手写文字内容的扫描及线上存储,便于用户对书摘及笔记内容进行快速编辑、查找及传输,大幅度提升内容管理效率,优化用户使用体验

6. 表格文字识别
对单据或报表中的表格内容进行结构化识别,并以JSON或Excel形式返回
https://cloud.baidu.com/product/ocr_others/table


·简单表格文字识别
支持识别具备完整框线的常规简单表格,结构化输出表头、表尾及每个单元格的文字内容
 

·复杂表格文字识别
可识别无表格框线,但行、列位置明确的表格,支持含合并单元格的复杂表格文字识别

应用场景分析:

··财税报表识别
提取识别银行对账单、资产负债表、损益表等财税场景常用表格内容,快速实现表格内容的电子化,用于财税信息统计、存档及核算,大幅度提升信息录入效率

··信息登记表识别
对个人、商品、公示内容等纸质信息登记表进行识别,用于登记信息的结构化整理和统计,大幅度降低人力录入成本,提升信息管理的便捷性

7. 二维码识别+条形码识别
对二维码、条形码中对应的文字内容进行识别,返回存储的文字信息
https://cloud.baidu.com/product/ocr_others/qrcode

·二维码识别
支持对图片中的二维码进行检测和识别,返回存储的文字信息
 

·条形码识别
支持对图片中的条形码进行检测和识别,返回存储的文字信息

应用场景分析:

··物品信息管理
对各类物品的二维码或条形码信息进行解析识别,获取相应信息,可应用于商品、药品出入库管理及货物运输管理等场景,轻松一扫即可快速完成对物品信息的读取、登记和存储,大幅度简化物品管理流程

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值