论文阅读
文章平均质量分 91
查小小小米
这个作者很懒,什么都没留下…
展开
-
[论文翻译]An End-to-End Video Text Detector with Online Tracking
一种端到端在线跟踪视频文本检测器摘要由于视频文本检测的两个挑战难点:1)视频场景带来的难题,即移动模糊,照明变化,和遮挡;2)文本特性包含不同字体,语言,和方向及形状,所以它被认为是文档分析中最难任务之一。大多数现存方法尝试通过与视频文本追踪合作来增强视频文本检测的性能,但是又分别对待两个任务。本工作中,我们提出了一个端到端在线追踪的视频文本检测模型来解决这两个挑战。具体地,在检测分支,我们采用ConvLSTM来捕捉空间结构信息和移动记忆,在追踪分支,我们将追踪问题转变成文本实例联系,并且提出了一个带有原创 2021-09-09 10:17:34 · 327 阅读 · 0 评论 -
[论文翻译]YOLOX: Exceeding YOLO Series in 2021
YOLOX:2021超越YOLO系列摘要本报告中,我们对YOLO系列进行了一些有经验的改进,构成了一个新的高性能检测器——YOLOX。我们将YOLO检测器变成无锚模式,并实施了一些其他先进检测技术,即,一个解耦头和引导标签分配策略SimOTA在大尺度范围模型中达到SOTA结果:对于仅有0.91M参数和1.08FLOPs的YOLONano,我们在COCO上达到25.3%AP,超越NanoDet1.8%AP。对于YOLOv3,工业上使用最广泛的检测器之一,我们在COCO上将其提升到47.3%AP,比当前最佳原创 2021-08-20 17:00:16 · 1332 阅读 · 9 评论 -
[论文翻译]Scene text recognition from two-dimensional perspective
二维视角下场景文字识别摘要受到语音识别的启发,最近最先进算法认为场景文字识别是一个序列预测问题。尽管达到极好的性能,这些方法通常忽视了一个重要的事实,图像中的文本实际上分布在二维空间。这是一种与语音截然不同的性质,语音本质是一维信号。原则上,直接把文本特征压缩成一维形式可能会失去有用信息和引入额外噪声。文本中,我们从二维角度来处理场景文本识别。一个简单但有效的模型,Character Attention Fully Convolutional Network(CA-FCN),被设计用于识别不同形态的文本原创 2021-08-10 17:44:52 · 723 阅读 · 0 评论 -
[论文翻译]Semantic-Aware Video Text Detection
语义感知视频文本检测摘要现存大多数视频文本检测方法使用外观特征跟踪文本,这非常容易受到角度和光照的影响。与外观特征相比,语义特征对于匹配文本实例更加具有鲁棒性。本文中,我们提出了一个新字符中心分割分支来提取编码了字符类别和位置的语义特征。首先,我们提出了一个新外观-语义描述符来追踪文本实例,其中语义特征能够改善外观变化的鲁棒性。为了克服字符级标注的缺失,我们提出了一个新弱监督字符中心检测模块,该模块仅使用单词级标注的真实图片类产生字符级标签。提出的方法在3个视频文本基准ICDAR 2013 Video,原创 2021-08-06 16:25:12 · 916 阅读 · 0 评论 -
[论文翻译]Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
Sparse R-CNN:具有可学习提案的端到端目标检测摘要我们提出稀疏R-CNN,一个纯稀疏检测图像物体的方法。现有目标检测的工作严重依赖于密集候选对象,比如在H×WH×WH×W大小的图像特征图的所有网格预定义kkk个锚框。但在我们的方法中,一个固定稀疏的可学习目标提案集合,总长为NNN,供给目标石鳖头来分类和定位。通过消除HWkHWkHWk个(多达数十万)手动设计的候选对象到N个(如100)可学习提案,稀疏R-CNN彻底避免了所有与候选目标设计和多对一标签分配的工作。更重要的是,最终预测直接输出,并原创 2021-07-26 17:33:09 · 615 阅读 · 0 评论 -
[论文翻译]MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
MOST: 一个带有定位细化的多方向文本检测器摘要过去几年,场景文本检测领域已有急速进步,现代文本检测器能够捕捉各种不同挑战场景下的文本。然而,它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例。为了处理这些困难,我们在本文中提出了一个新的场景文本检测的新算法,该算法提出了一系列策略显著地提高了文本定位的质量。特别提出了一个TFAM(Text Feature Alignment Module)基于初始原始检测动态地调整特征感受野:一个PA-NMS(Position-Aware Non-Maximu原创 2021-07-16 16:40:32 · 1007 阅读 · 0 评论 -
[论文阅读]PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text
PAN++ 支持任意形状文本的高效和精确的端到端探查摘要在过去的几年中,场景文本检测和识别得到了很好的研究。尽管取得了进展,但高效、准确地端到端识别任意形状的文本仍然具有挑战性。在这项工作中,我们提出了一个端到端的文本探查框架,称为PAN++,它可以有效地检测和识别自然场景中任意形状的文本。PAN++基于内核表示,它将文本行重新表示为由外围像素包围的文本内核(中心区域)。通过与现有场景文本表示的系统比较,我们表明我们的核表示不仅能描述任意形状的文本,而且能很好地区分相邻文本。此外,作为基于像素的表示,核原创 2021-06-24 10:22:25 · 2480 阅读 · 0 评论 -
[论文翻译] Primitive Representation Learning for Scene Text Recognition
场景文本识别的原始表征学习摘要因为自然场景中文本实例的多样性,场景文本识别是一个有挑战性的工作。基于CNN-RNN-CTC或者带有注意力机制的编码器-解码器的常见方法也许不能完全研究出多方向场景文本的稳定有效的特征表示。本文中,我们提出了一个原始表征学习方法,目的是开发场景文本图像固有表达方式。我们将特征图中的元素建模为无向图的节点。提出了一种汇集聚合器和一种加权聚合器来学习j原始表示,通过图形卷积网络将基础表示转化为高级可视文本表示。构建了一个原始表征学习网络(PREN),使用可视文本表示进行并行解码原创 2021-06-23 20:03:01 · 690 阅读 · 0 评论