论文的整体思路:
- 通过一个现有的分类网络去提取图片的高级特征(feature map);
- 通过训练一个新的网络计算每个像素的特征;
- 通过每个像素点的特征计算它的文本区域;
- 通过非极大值抑制的办法取合并并确定最终的区域;
论文一些实现细节:
- 确定输出的特征,我们选择 RBOX 和 Score Map 的组合;其中 Score Map 如 图(b) 所示,用来描述该像素点在不在文本区;RBOX 如 图(c) (d) (e),用来描述像素点到文本框的距离和角度。也就是说,我们何以根据输出的特征计算出每个点的文本区域;
- 数据标记,我们根据给定的数据集把每张图片都标记成我们的输出格式,实现细节,我们的网络对图片的输入大小是右要求的,比如我们选定的图片大小是 (512*512), 我们必须通过一定的方案把训练集的图片和其给定的坐标都尽可能准确的对应到一张 (521*512) 的图片上,我们可以选择首先用黑色来讲图片填充成一个正方形,然后再通过一定的比例来把图片进行缩放, 这样的话,数据集的标签就可以简单的进行缩放就可以完成标记。
- 基础网络,我们选择 VGG16 或 VGG19 。
训练 LOSS 设计
- 对于 Score Map
- 对于 RBOX