基于笔画特征的文字检测探讨

    

         此前承诺每周要干好一件事——写博客,看来是被自己食言了,但是我心里总绷着一根弦,不能让周末白白浪费掉。上一篇博文发表在了首页上,被管理员撤下,让我深受打击,可能是跟计算机技术关系不大吧,因此,以后只把和计算机有关的文章发表到首页上吧。

        最近在研究文字区域检测,这个方向也算是比较活跃。从90年代到现在IEEEImage ProcessingPattern  Recognition 等顶级期刊上的文字检测方面的论文就没有断过,但是每一篇文章几乎都是宣称自己找到了一种新的鲁棒性高的算法,而批判别人算法的缺陷。看得让我无比揪心,比如说,较新的文献中recall rate达到96%time  consuming 达到138 ms/frame,这简直不给我留条活路,要是性能不能超越前辈,怎么好意思往牛逼杂志上投文章呢?还有,既然现在性能这么好了,为什么还没有实际的应用呢?我只能说,这些文章的结论只适合某一些特定的数据,对于复杂背景下的文字检测还远远达不到这个性能。抱着这个信念,我一往无前地踏上了文字检测的艰辛之路。

        中国人在这方面发的文章是最多的,虽然贵为SCI,但是引用量不大让人信服啊。感觉还是韩国人的文章靠谱些,Jung C.等人[1]提出的笔画滤波器(stroke filter, SF)是我觉得能最好的描述文字的特征之一。此前,文字的边缘(梯度)特征、连通区域、纹理、投影等等最多算是文字的外部特征,因为树叶、窗帘、城市地图等等都含有这些特征,但是笔画确实是文字的内部特征。此外,各语种(如英语和中日韩语)的外部特征是不同,因此大部分文献都是研究某一语种的文字检测,但是笔画特征是所有语种文字所具备的特征,可以不仅适用所有语言,还能检测手写体文字。在另外一篇微软人[2]写的文章里进一步探究了这种笔画特征,它根据道路检测和血管检测中的方法提出了笔划宽度变换(stroke width transform, SWT)算法,他们提出几乎所有的文字具有相同的笔画宽度!这不是一个惊人的发现,但是此前这么多年来为什么就没有人注意到这一特征呢!这是迄今为止我看到的关于文字特征最好的特征了。虽然提出了这种方法,能够检测出大部分文字区域,但是同时产生了严重的虚警,如树叶、条纹等等都会当作候选文字区域,这样就增加了模式判别的难度。但是,我坚信笔画特征是可行的,只不过还要附加一些必要的其他重要的文字特征,这样对虚警区域和文字区域进行准确判定。

        我仿真了Jung C.SF算法以及微软的SWT算法,咱不打诳语,用图说话。   

     Figure1. 笔画滤波器(SF)的响应图1)原图,2Canny边缘检测图,3SF的响应图,4SF的方向图。


      Figure2. SWT算法的响应图。1)原图,2Canny边缘检测图,3SWT算法响应图(这一步效果还算不错,但是有些字母笔画不全,可以进行区域生长算法或形态学“开闭”操作将其不全),4)文字检测结果(效果不理想是因为在文字候选时的限制条件过多、过严格,把真正的文字当做虚警剔除了)。

    分析:

    测试的是26个大写字母,背景是全黑的,这是为了检测算法的准确性,不让背景干扰到算法,这样可以看到算法在最好情况下能达到什么效果。可以看到,两种算法都较稳定,但是文字都有些缺陷,所以后一步有必要采用区域生长算法补全这些区域,再进行模式判别。

    这是复杂背景下的文字检测图。

              

                    Figure 3. 1)原图,2Canny检测图,3SWT响应图,4)文字检测结果

    从简单的仿真实验中可以看出,笔画特征是可行的。

    写在后面:

    在文字检测系统中,特征提取不是全部的步骤,还有模式判别这一步。我用一个公式表示他们的权重:

                            文字检测 = 0.3*特征提取 + 0.7*模式判别

    所以特征提取的好坏只能影响到整个文字检测系统30%的性能,而另外70%的性能由模式判别决定。模式判别方法就有很多种了,现在CSDN上(甚至在计算机领域都是)大受欢迎的机器学习方法,如支持向量机(SVM[3]、随机森林(Random forest[4]。不过最近神经网络好像不火了,这几年风头被SVM占尽,难道神经网络(NN)要被淘汰了??以前如此盛行,搞智能算法必提NN,这让人情何以堪!

    另外,致尊敬的管理员,求你把要发到首页的博文的具体要求写清楚点,我不想再被撤下了。 

参考文献:

[1]C. Jung, Q. Liu, J. Kim, Text Segmentation based on Stroke Filter, IEEE, 2006, 129-132

[2]Boris Epshtein, Eyal Ofek, Yonatan Wexler, Detecting Text in Natural Scenes with Stroke Width Transform, IEEE, 2010

[3]C. Jung, Q. Liu, J. Kim, A stroke filter and its application for text localization, PRL vol 30(2), 2009

[4]Anthimopoulos M, Gatos B, A two stage scheme for text detection in video images, Image and Vision Computing 28 (2010) 1413-1426

附:有代码实现,下次会发到CSDN上。


评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值