CVPR2017 by Yuliang Liu & Lianwen Jin
1.Motivation
对于自然文本的检测任务,原来的方法都专注于用矩形框来对文本进行定位。但是实际上因为文本图像存在透视变换等等问题,图像里面的自然文本并不是严格地呈现矩形的。这个时候用矩形框来定位的话会有以下问题:
左边表示用四边形定位的结果,右边表示用矩形定位的结果。
(a)表示用矩形定位会引入不必要的overlap
(b)表示用矩形会导致文本的边界不能很好的定位
(c)表示矩形会引入额外的噪声。
因此作者提出了自己的Deep Matching Prior Network用来检测四边形边框。
2.Proposed methodology
1.利用quadrilateral sliding windows来对text进行粗定位;
2.采用shared Monte-Carlo方法快速计算两个任意四边形的交叉面积
3.利用和gt overlap大的四边形进行text的精确定位
4.设计了smooth Ln loss来提高定位精度
2.1.Rough recall text with quadrilateral sliding window
作者指出之前的方法都是用水平的矩形来作为anchor box,这种方法对于倾斜的文本来说,相同的阈值下recall太低了。