文章目录
Attention-based Extraction of Structured Information from Street View Imagery
CNN模型 RNN模型 以及添加相应的注意力机制结合的文字识别模型
摘要
- Convolutional Neural Networks, Recurrent Neural Networks and a novel attention mechanism,分别为卷积神经网络,循环神经网络和注意力模块
- 主要测试数据集为 Google Street View
- 通过消融实验,获得最佳的模型深度参数,能够同时满足 simple、accurate和fast
论文
1. CNN-based feature extraction CNN特征提取网络
文中主要尝试inception-v2和inception-v3两个模型,相当于当时效率最高的backbone,本文中的f为feature map,是CNN网络的输出结果
2. RNN 循环神经网络
αt为相应的每个字词在图片中的位置信息,因为循环神经网络的t对应在本文的问题即是第几个文字,所以针对每一个文字在不同的图片中,对应其相应的α,从而RNN的输入input为图片与当前字在图片中的attention乘积,如下式:
最终RNN的输出为
ct-1为前一个位置的字符,ut是当前t位置的输入,W分别为两项的权重,在RNN单元中自动训练。注意在RNN的循环中,主要是hidden隐藏变量的不断运算,可以表示为:
上式中的st-1为前一个位置的hidden-state隐藏变量
最终ct,也就是该位置的字符,通过似然函数可得
此处选择t时刻的概率值最大的对应单词,而没有选择到全局最优,此实现方式仅为局部最优。
3. Spatial attention 空间注意力机制
第一项:当前位置的RNN输出的隐藏变量;第二项:每个图片上的像素点的权重;在i维度和j维度分别有当前字的位置在feature-map中的one-hot标志