深度学习：多场景多尺度的文本检测

最新推荐文章于 2023-12-05 22:07:26 发布

VIP文章蹦跶的小羊羔

最新推荐文章于 2023-12-05 22:07:26 发布

阅读量4.1k

点赞数 2

分类专栏： Deep Learning 文章标签： FTSN 文本检测

本文链接：https://blog.csdn.net/yql_617540298/article/details/82317824

版权

《Fused Text Segmentation Networks for Multi-oriented Scene Text Detection》

用于多场景文本检测的融合文本分割网络。（2018.5.7）

文章笔记

摘要 - 本文从实例感知语义分割的角度介绍了一种新的面向多向场景文本检测的端到端框架。我们提出了融合文本分割网络，它在特征提取过程中结合了多级特征，因为与一般对象相比，文本实例可能依赖于更精细的特征表达。它利用来自语义分割任务和基于区域建议的对象检测任务的优点，共同和同时检测和分割文本实例。不涉及任何额外的管道，该方法超越了多方位场景文本检测基准的现有技术水平：ICDAR2015偶然场景文本和MSRA-TD500分别达到Hmean 84.1％和82.0％。更重要的是，报告了包含弯曲文本的全文的基线，这表明了所提方法的有效性。

介绍

近年来，场景文本检测引起了计算机视觉和机器学习界的极大关注。在照片翻译和收据内容识别等许多基于内容的图像应用的推动下，它已成为学术界和工业界一个充满希望和挑战的研究领域。在自然图像中检测文本是困难的，因为文本和背景在野外都可能很复杂，并且经常遭受诸如遮挡和不可控制的光照条件的干扰[1]。以前的文本检测方法[2]，[3]，[4] ]，[5]，[6]在几个基准测试中取得了可喜的成果。文本检测中的基本问题是使用表示文本区域，传统上，手工制作的特征被设计[3]，[7]，[8]来捕捉文本区域的属性，如纹理和形状，而在过去的几年中，基于深度学习的方法[9]， [10]，[6]，[11]，[12]，[13]直接从训练数据中学习等级特征，在各种基准测试中展示更准确和有效的性能，如ICDAR系列竞赛[14]，[15]，[ 16。现有方法[10]，[9]，[6]，[13]已经获得了用于检测水平或近水平文本的良好性能。虽然水平文本检测具有轴对齐边界框基本事实的约束，但是多向文本不限于特定方向，并且通常使用四边形来进行注释。因此，与水平场景文本检测基准[14]，[15]相比，它报告ICDAR 2015竞赛挑战4附带场景文本定位[16]的准确度相对较低。

最近，已经提出了一些方法[17]，[18]，[19]，[20]，[21]，[22]来解决多方向文本检测。通常，目前有四种不同类型的方法。基于区域的方法[19]，[22]，[21]利用先进的物体检测技术，如更快的RCNN [23]和SSD [24]。基于分割的方法[25]，[26]主要利用完全卷积神经网络（FCN）来生成文本分数图，这通常需要几个阶段和组件来实现最终检测。基于直接回归的方法[18]从给定点回归对象的位置和大小。最后，混合方法[20]将文本分数图和旋转/

最低0.47元/天解锁文章

蹦跶的小羊羔

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
2
评论
深度学习：多场景多尺度的文本检测

《Fused Text Segmentation Networks for Multi-oriented Scene Text Detection》用于多场景文本检测的融合文本分割网络。（2018.5.7）文章笔记摘要 - 本文从实例感知语义分割的角度介绍了一种新的面向多向场景文本检测的端到端框架。我们提出了融合文本分割网络，它在特征提取过程中结合了多级特征，因为与一般对象相比，文本...
复制链接

扫一扫