《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读

论文链接:https://arxiv.org/abs/1709.02054

摘要
场景文本识别优于其广发的应用一直是 计算机识别中的研究热点之一。目前最先进的计算是基于注意力机制的编码-解码框架的,该技术以纯数据驱动的方式学习输入图像和输出序列的映射关系。但是,我们发现现有的attention机制的方法在复杂和低质量的图像表现较差。一个主要的原因是现有方法对于这样的图像不能得到特征区域和目标间的准确对齐。我们称这种现象为“注意力漂移”、为了解决这个问题,本文中我们提出FAN方法,该方法用聚焦注意力机制来自动拉回漂移的注意力。FAN包括两个主要部分:AN用于识别字符,和现有方法一样;FN用来评估AN的注意力是否与图像中目标区域对齐。另外,不同于现有方法之处,我们采用ResNet网络来丰富场景文本图像的深度表达。在不同的基准上大量实验,说明了FAN方法性能明显优于现有方法。

1、简介
场景文本识别在计算机视觉领域吸引了很多研究。识别场景文本对于理解场景是至关重要的。尽管OCR相关的研究已经有数十年,但识别自然场景中的文本仍是一项具有挑战性的任务。目前最先进技术采用注意力机制来识别字符,并且实际性能获得提高[18][25]。
一般情况下,基于attention的文本识别是基于编码-解码框架设计的。在编码阶段,一张图通过CNN/LSTM[25]转换为特征向量序列,每个特征向量代表输入图像的一个区域。在本文中,我们称正阳的区域为attention regions。在解码阶段,注意力网络(AN)首先通过参考目标字符的历史和用于生成合成向量(也可以成为glimpse 向量)的编码特征向量计算对齐因子[3],因此获得attention区域和对应的ground-tru

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值