场景文本识别一般分为两步处理文本检测和文本识别。但是这样花费的时间比较多,尤其是文本区域多的时候,另一方面两步处理会忽视两者之间的共享相关联的信息。所以本文提出通过ROIRotate操作将两者结合起来进行联合训练,可以看成是端对端的。这是目前第一个端对端的有向(可识别非水平)文本识别网络,结果表明本网络识别速度快,达到了时时水平,并且比目前所有的结果高5%。
本文的主要创新点为提出ROIRotate,识别率高同时识别速度快到实时水平。
框架:
总共分为四个部分: 共享卷积、文本检测分支,RoI Rorate操作和文本识别分支。图像经过一个共享卷积模块提取共享特征(文本检测和文本识别共享),共享特征输入到文本检测分支输出预测边框,同时输入RoI Rotate提取建议文本特征输入文本识别分值,最终预测文本结果。
1.共享卷积