深度学习:多场景多尺度的文本检测

《Fused Text Segmentation Networks for Multi-oriented Scene Text Detection》

用于多场景文本检测的融合文本分割网络。(2018.5.7)

文章笔记

摘要 - 本文从实例感知语义分割的角度介绍了一种新的面向多向场景文本检测的端到端框架。 我们提出了融合文本分割网络,它在特征提取过程中结合了多级特征,因为与一般对象相比,文本实例可能依赖于更精细的特征表达。 它利用来自语义分割任务和基于区域建议的对象检测任务的优点,共同和同时检测和分割文本实例。 不涉及任何额外的管道,该方法超越了多方位场景文本检测基准的现有技术水平:ICDAR2015偶然场景文本和MSRA-TD500分别达到Hmean 84.1%和82.0%。 更重要的是,报告了包含弯曲文本的全文的基线,这表明了所提方法的有效性。

介绍

        近年来,场景文本检测引起了计算机视觉和机器学习界的极大关注。在照片翻译和收据内容识别等许多基于内容的图像应用的推动下,它已成为学术界和工业界一个充满希望和挑战的研究领域。在自然图像中检测文本是困难的,因为文本和背景在野外都可能很复杂,并且经常遭受诸如遮挡和不可控制的光照条件的干扰[1]。以前的文本检测方法[2],[3],[4] ],[5],[6]在几个基准测试中取得了可喜的成果。文本检测中的基本问题是使用表示文本区域,传统上,手工制作的特征被设计[3],[7],[8]来捕捉文本区域的属性,如纹理和形状,而在过去的几年中,基于深度学习的方法[9], [10],[6],[11],[12],[13]直接从训练数据中学习等级特征,在各种基准测试中展示更准确和有效的性能,如ICDAR系列竞赛[14],[15],[ 16。现有方法[10],[9],[6],[13]已经获得了用于检测水平或近水平文本的良好性能。虽然水平文本检测具有轴对齐边界框基本事实的约束,但是多向文本不限于特定方向,并且通常使用四边形来进行注释。因此,与水平场景文本检测基准[14],[15]相比,它报告ICDAR 2015竞赛挑战4附带场景文本定位[16]的准确度相对较低。

        最近,已经提出了一些方法[17],[18],[19],[20],[21],[22]来解决多方向文本检测。通常,目前有四种不同类型的方法。基于区域的方法[19],[22],[21]利用先进的物体检测技术,如更快的RCNN [23]和SSD [24]。基于分割的方法[25],[26]主要利用完全卷积神经网络(FCN)来生成文本分数图,这通常需要几个阶段和组件来实现最终检测。基于直接回归的方法[18]从给定点回归对象的位置和大小。最后,混合方法[20]将文本分数图和旋转/

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蹦跶的小羊羔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值