《Focusing Attention：Towards Accurate Text Recognition in Natural Images》阅读

最新推荐文章于 2021-09-30 17:52:31 发布

zzwwllii

最新推荐文章于 2021-09-30 17:52:31 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/zhangwl27/article/details/78080876

版权

论文链接：https://arxiv.org/abs/1709.02054

摘要
场景文本识别优于其广发的应用一直是计算机识别中的研究热点之一。目前最先进的计算是基于注意力机制的编码-解码框架的，该技术以纯数据驱动的方式学习输入图像和输出序列的映射关系。但是，我们发现现有的attention机制的方法在复杂和低质量的图像表现较差。一个主要的原因是现有方法对于这样的图像不能得到特征区域和目标间的准确对齐。我们称这种现象为“注意力漂移”、为了解决这个问题，本文中我们提出FAN方法，该方法用聚焦注意力机制来自动拉回漂移的注意力。FAN包括两个主要部分：AN用于识别字符，和现有方法一样；FN用来评估AN的注意力是否与图像中目标区域对齐。另外，不同于现有方法之处，我们采用ResNet网络来丰富场景文本图像的深度表达。在不同的基准上大量实验，说明了FAN方法性能明显优于现有方法。

1、简介
场景文本识别在计算机视觉领域吸引了很多研究。识别场景文本对于理解场景是至关重要的。尽管OCR相关的研究已经有数十年，但识别自然场景中的文本仍是一项具有挑战性的任务。目前最先进技术采用注意力机制来识别字符，并且实际性能获得提高[18][25]。
一般情况下，基于attention的文本识别是基于编码-解码框架设计的。在编码阶段，一张图通过CNN/LSTM[25]转换为特征向量序列，每个特征向量代表输入图像的一个区域。在本文中，我们称正阳的区域为attention regions。在解码阶段，注意力网络（AN）首先通过参考目标字符的历史和用于生成合成向量（也可以成为glimpse 向量）的编码特征向量计算对齐因子[3]，因此获得attention区域和对应的ground-tru

最低0.47元/天解锁文章

zzwwllii

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Focusing Attention：Towards Accurate Text Recognition in Natural Images》阅读

论文链接：https://arxiv.org/abs/1709.02054摘要场景文本识别优于其广发的应用一直是计算机识别中的研究热点之一。目前最先进的计算是基于注意力机制的编码-解码框架的，该技术以纯数据驱动的方式学习输入图像和输出序列的映射关系。但是，我们发现现有的attention机制的方法在复杂和低质量的图像表现较差。一个主要的原因是现有方法对于这样的图像不能得到特征区域和目标间
复制链接

扫一扫