CVPR 2018
- Introduction
这个模型是作者针对基于STN的不规则文本识别算法难以训练,需要人工标记的缺点,来提出的一种全新的对任意方向文本进行识别的算法。
- Model
整体架构
整个模型分为三个部分,BCNN基本CNN层用来对input image提取出feature map,AON+FG是本算法的核心,基本思路是将文本方向分为Left2Right,Right2Left,Bottom2Top,Top2Bottom,对这四个方向提取四个sequence vector和一个权重向量,在FG层将四个sequence和权重进行组合形成最终的sequence,然后输入带有Attention机制的Decoder从而输出最终文本。
2.1 BCNN
输入输出是square feature maps