文章来源 | 恒源云(专注人工智能/深度学习GPU免费加速平台,官方体验网址:https://gpushare.com)
原文地址 | 【CVPR 2020】ContourNet 论文学习笔记 (学霸季奖励计划)
一、背景
虽然ocr发展了很多年,也有了非常不错的表现,但在场景文本识别领域仍然有很多挑战:
1、真实场景下文本样式复杂、背景杂乱
2、图像质量参差不齐
3、文本方向各异甚至弯曲文本
4、文本过密、尺寸过长、过小
。。。
通常STR会分为:文本检测和文本识别两个问题,当然也有很多研究关注于end-to-end文本识别。
其中检测方面,2019年韩国NAVER Clova AI Research的Craft为我们提供了一个很优秀的模型,这种类型的检测模型属于自下而上的分割,即先分割再实例化为一个个文本,类似的还有DBNet、PSENet。然而我在实际应用时发现,对于多行密集文本场景,往往会将其识别为同一个文本区域,这给后续文本识别任务带来了不小的麻烦。
本文介绍的ContourNet是cvpr2020的一篇属于自上而下的文本检测方法,即先识别到文本框,再分割出文本mask区域。类似的还有maskRcnn、SPCNet等。这一思路我认为可