基于笔画特征的文字检测探讨

最新推荐文章于 2024-08-01 10:56:37 发布

zhoudongao

最新推荐文章于 2024-08-01 10:56:37 发布

阅读量6.2k

点赞数 8

分类专栏：图像处理文章标签：图像处理文字检测算法研究 Stroke filter SWT

本文链接：https://blog.csdn.net/segoold_chou/article/details/14101247

版权

图像处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

此前承诺每周要干好一件事——写博客，看来是被自己食言了，但是我心里总绷着一根弦，不能让周末白白浪费掉。上一篇博文发表在了首页上，被管理员撤下，让我深受打击，可能是跟计算机技术关系不大吧，因此，以后只把和计算机有关的文章发表到首页上吧。

最近在研究文字区域检测，这个方向也算是比较活跃。从90年代到现在IEEE、Image Processing、Pattern Recognition 等顶级期刊上的文字检测方面的论文就没有断过，但是每一篇文章几乎都是宣称自己找到了一种新的鲁棒性高的算法，而批判别人算法的缺陷。看得让我无比揪心，比如说，较新的文献中recall rate达到96%，time consuming 达到138 ms/frame，这简直不给我留条活路，要是性能不能超越前辈，怎么好意思往牛逼杂志上投文章呢？还有，既然现在性能这么好了，为什么还没有实际的应用呢？我只能说，这些文章的结论只适合某一些特定的数据，对于复杂背景下的文字检测还远远达不到这个性能。抱着这个信念，我一往无前地踏上了文字检测的艰辛之路。

中国人在这方面发的文章是最多的，虽然贵为SCI，但是引用量不大让人信服啊。感觉还是韩国人的文章靠谱些，Jung C.等人[1]提出的笔画滤波器(stroke filter， SF)是我觉得能最好的描述文字的特征之一。此前，文字的边缘（梯度）特征、连通区域、纹理、投影等等最多算是文字的外部特征，因为树叶、窗帘、城市地图等等都含有这些特征，但是笔画确实是文字的内部特征。此外，各语种（如英语和中日韩语）的外部特征是不同，因此大部分文献都是研究某一语种的文字检测，但是笔画特征是所有语种文字所具备的特征，可以不仅适用所有语言，还能检测手写体文字。在另外一篇微软人[2]写的文章里进一步探究了这种笔画特征，它根据道路检测和血管检测中的方法提出了笔划宽度变换(stroke width transform, SWT)算法，他们提出几乎所有的文字具有相同的笔画宽度！这不是一个惊人的发现，但是此前这么多年来为什么就没有人注意到这一特征呢！这是迄今为止我看到的关于文字特征最好的特征了。虽然提出了这种方法，能够检测出大部分文字区域，但是同时产生了严重的虚警，如树叶、条纹等等都会当作候选文字区域，这样就增加了模式判别的难度。但是，我坚信笔画特征是可行的，只不过还要附加一些必要的其他重要的文字特征，这样对虚警区域和文字区域进行准确判定。

我仿真了Jung C.的SF算法以及微软的SWT算法，咱不打诳语，用图说话。

Figure1. 笔画滤波器(SF)的响应图1）原图，2）Canny边缘检测图，3）SF的响应图，4）SF的方向图。

Figure2. SWT算法的响应图。1）原图，2）Canny边缘检测图，3）SWT算法响应图（这一步效果还算不错，但是有些字母笔画不全，可以进行区域生长算法或形态学“开闭”操作将其不全），4）文字检测结果（效果不理想是因为在文字候选时的限制条件过多、过严格，把真正的文字当做虚警剔除了）。

分析：

测试的是26个大写字母，背景是全黑的，这是为了检测算法的准确性，不让背景干扰到算法，这样可以看到算法在最好情况下能达到什么效果。可以看到，两种算法都较稳定，但是文字都有些缺陷，所以后一步有必要采用区域生长算法补全这些区域，再进行模式判别。

这是复杂背景下的文字检测图。

Figure 3. 1）原图，2）Canny检测图，3）SWT响应图，4）文字检测结果

从简单的仿真实验中可以看出，笔画特征是可行的。

写在后面：

在文字检测系统中，特征提取不是全部的步骤，还有模式判别这一步。我用一个公式表示他们的权重：

文字检测 = 0.3*特征提取 + 0.7*模式判别

所以特征提取的好坏只能影响到整个文字检测系统30%的性能，而另外70%的性能由模式判别决定。模式判别方法就有很多种了，现在CSDN上（甚至在计算机领域都是）大受欢迎的机器学习方法，如支持向量机（SVM）[3]、随机森林（Random forest）[4]。不过最近神经网络好像不火了，这几年风头被SVM占尽，难道神经网络（NN）要被淘汰了？？以前如此盛行，搞智能算法必提NN，这让人情何以堪！