Attention-based Extraction of Structured Information from Street View Imagery【CNN+RNN+注意力机制的文字识别】

Attention-based Extraction of Structured Information from Street View Imagery

CNN模型 RNN模型 以及添加相应的注意力机制结合的文字识别模型

论文连接

摘要

  1. Convolutional Neural Networks, Recurrent Neural Networks and a novel attention mechanism,分别为卷积神经网络,循环神经网络和注意力模块
  2. 主要测试数据集为 Google Street View
  3. 通过消融实验,获得最佳的模型深度参数,能够同时满足 simple、accurate和fast

论文

在这里插入图片描述

1. CNN-based feature extraction CNN特征提取网络

文中主要尝试inception-v2和inception-v3两个模型,相当于当时效率最高的backbone,本文中的f为feature map,是CNN网络的输出结果
在这里插入图片描述

2. RNN 循环神经网络

在这里插入图片描述

αt为相应的每个字词在图片中的位置信息,因为循环神经网络的t对应在本文的问题即是第几个文字,所以针对每一个文字在不同的图片中,对应其相应的α,从而RNN的输入input为图片与当前字在图片中的attention乘积,如下式:
在这里插入图片描述
最终RNN的输出为
在这里插入图片描述
ct-1为前一个位置的字符,ut是当前t位置的输入,W分别为两项的权重,在RNN单元中自动训练。注意在RNN的循环中,主要是hidden隐藏变量的不断运算,可以表示为:
在这里插入图片描述
上式中的st-1为前一个位置的hidden-state隐藏变量
在这里插入图片描述
最终ct,也就是该位置的字符,通过似然函数可得
在这里插入图片描述
此处选择t时刻的概率值最大的对应单词,而没有选择到全局最优,此实现方式仅为局部最优。

3. Spatial attention 空间注意力机制

在这里插入图片描述
第一项:当前位置的RNN输出的隐藏变量;第二项:每个图片上的像素点的权重;在i维度和j维度分别有当前字的位置在feature-map中的one-hot标志

4. Street View Business Names Dataset 在街道标识牌数据集上进行分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值