基于深度学习的自然场景文字识别

本文探讨了自然场景文字识别的挑战,包括复杂背景、多样化字体和分布,以及现有方法的局限性。重点介绍了基于深度学习的识别框架,涉及到CNN和BiRNN的图像编码以及ARSG的文字解码。深度学习方法在解决传统方法依赖人工特征、字符分割问题和上下文理解方面展现出优势。
摘要由CSDN通过智能技术生成

1.1引言

传统光学字符识别主要面向高质量的文档图像,此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。

与文档文字识别不同,自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。

图像理解:仅利用一般的视觉元素(如太阳、大海、山、天空等)及其相互关系,容易缺乏足够的上下文信息约束,难以准确推导出图像所代表的含义,与一般的 视觉元素不同,文字包含了丰富的高层语义信息。

1.2 相关技术及研究现状

1.2.1 自然场景文字处理流程

主要包括文字检测与文字识别。

文字检测的主要功能为:从图像中找到文字区域,并将文字区域从原始图像中分离出来

文字识别的主要功能为:从分离出来的图像上,进行文字识别

文字识别流程:

1)预处理:去噪(滤波算法)、图像增强、缩放,其目的是去除背景或者噪点,突出文字部分,并缩放图片为适于处理的大小

2)特征抽取:常用特征:边缘特征、笔画特征、结构特征

3)识别:分类器,随机森林 、SVM、NN


1.2.2 自然场景文字识别的困难与挑战

文字背景异常复杂、文字类型丰富、分布随意、字符分割困难、噪音严重

1.2.3 自然场景文字识别的研究现状

基于字符的识别和基于整个单词的识别

1.2.3.1 基于字符

  • 9
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值