资源
- paper 网址:https://arxiv.org/abs/1609.03605
- tf code网址:https://github.com/eragonruan/text-detection-ctpn
亮点
之前很多做检测的论文都是先画很多anchor,然后再对这些anchor做回归。这些anchor 的尺寸都是相对比较大的,在文本检测上可能效果不是很好。CTPN是将这些anchor分成了很多宽度固定的小区域,预测完小区域之后,再对区域进行合并,得到最后的box位置。
输入
预处理
一般情况下,我们手里的数据是标准的VOC格式,即一张图片上框了很多的框,而这些框是用(Xmin,Ymin,Xmax,Ymax)来表示的。翻看以下的源代码,你会发现恰好是这四个值,如果已经VOC格式的,直接跳到这里来,如果不是,则需要先生成一个text,每一行记录四个坐标(用逗号分隔开),其中这四个坐标的位置是任意的。
#from the split_label in the prepare training data dir