场景文字检测和识别的关键技术
网络架构
全卷积网络 FCN
- Fully convolutional network FCN 全卷积网络,没有全连接层的网络
- FCN可以生成用于有效语义分割的特征层次结构
- 由于多尺寸学习和预测的优点,符合场景文字的本质,许多文字识别方法把FCN作为它们的骨干(backbone)网络。
- 一般来说,首先,使用 FCN 得到像素级文本/非文本 salient map(突出点映射),它产生像素级标签或包含文本的标记区域。然后,生成文本候选边框。
- 通过利用 skip architecture of FCN(全连接网络的跳跃连接结构),不同尺寸的感受野(receptive fields RF)能够同时编码文本的局部特征和文本的全局上下文信息。
ResNet
- 越深的神经网络越难训练,因为精度可能饱和并且迅速下降,参数跟新比较困难
- 为了解决深层网络难训练的问题,提出了deep residual network(深度残差网络 ResNet),它的组成模块被定义为 y = F ( X , W i ) +