[论文翻译]An End-to-End Video Text Detector with Online Tracking

一种端到端在线跟踪视频文本检测器

摘要

由于视频文本检测的两个挑战难点:1)视频场景带来的难题,即移动模糊,照明变化,和遮挡;2)文本特性包含不同字体,语言,和方向及形状,所以它被认为是文档分析中最难任务之一。大多数现存方法尝试通过与视频文本追踪合作来增强视频文本检测的性能,但是又分别对待两个任务。本工作中,我们提出了一个端到端在线追踪的视频文本检测模型来解决这两个挑战。具体地,在检测分支,我们采用ConvLSTM来捕捉空间结构信息和移动记忆,在追踪分支,我们将追踪问题转变成文本实例联系,并且提出了一个带有记忆机制的外形-几何描述符来产生灵活文本实例表示。通过整合这两个分支成一个可训练框架,它们可以互相促进,并且训练开销大量减少。在现存视频文本基准包含ICDAR2013 Video,Minetto和YVT证明提出的方法极大地优于SOTA方法,我们的方法在所有数据集上F-Score提高了约2%,在Titan Xp上可以达到24.36fps实时。

介绍

随着移动网络的飞速发展,视频相关应用在我们生活中越来越受欢迎。所以视频分析成为实际应用中一个重要的任务。在不同类型的对象出现在视频中,文本通常包含丰富的语义信息,并在许多应用中有着重要的地位,比如视频标注,多媒体检索,和工业自动化。

在过去几年,我们见证了追踪视频文本检测的重大进步。以往这方面的工作通草分两步执行:先检测单帧中文本,再进行数据关联。然而,这些两步方法存在以下问题:1)视频单帧检测不能充分利用视频中的时间内容;2)检测后追踪需要额外网络来提取追踪特征,这导致了另外计算开销,这样的追踪方法大多离线,所以实际应用中受限;3)两部分分别训练就不能充分使用互相之间的监督信息。视频文本检测和追踪任务密切相关。

本工作中,我们展示了一个新型在线追踪的端到端视频文本检测器。通过把检测和追踪整合到一起,它们可以利用相互的监督信息。提出方法的整个管道如图2。具体地,在保留结构的同时,为了完全利用时间域信息和场景文本纹理特征的优势,ConvLSTM层引入到视频文本检测分支。另外,提出外形-几何描述符(AGD)和对应评价外形-几何描述符(EAGD)来建立在线追踪的短期目标联系。同时,这些描述符随着时间步长而更新以便捕获长期多目标变化过程的信息,即,新目标的出现和旧目标的离开。如图1所示,我们的方法可以极大地改善性能。
在这里插入图片描述
图1 视频文本检测与追踪。第一行为EAST检测结果。第二行为我们带有ConvLSTM的视频文本检测分支结果。最后一行是带有在线追踪的检测结果,其中不同帧的相同颜色框属于同一轨迹(彩色视图较好)

我们方法的贡献可以总结如下:
1)就我们所知,这是第一个端到端视频文本检测和在线追踪框架;
2)引入ConvLSTM至检测分支,对于捕获空间-时间信息非常有用;
3)提出的外形-几何描述符已经证明对多文本实例关联的鲁棒性和有效性。
4)大量实验证明了我们方法的有效性,并且在多个公共基准上达到了SOTA。

相关工作

单帧文本检测现已经有非常大进步。然而,对于视频文本检测,如何充分使用视频中的上下文信息仍然没能很好的解决。在本部分中,将会回顾单图像检测和视频文本检测的发展。

单帧文本检测。近些年许多文本检测的方法成功提出。具体地,基于组件的方法、基于分割的方法和基于检测的方法是单帧检测的主要几大类。基于组件的方法通常先检测部分或者文本组件,之后经过一系列复杂流程包括元件分组、过滤和单词划分,来获得最终单词级检测结果。基于分割的方法,[22]认为一个单词/文本行的所有像素是一个整体实例。它可以处理任意形态的文本,但过于依赖细粒度分割同时也需要一些间断后处理操作。基于检测的方法,[30]从一般目标检测中获得灵感,并直接输出单词/文本行的检测结果。

视频文本检测。站在单帧文本检测的方法之上,许多视频模式的文本检测方法被提出。研究者尝试通过追踪来提高检测结果,取名为基于追踪的文本检测方法。这些方法使用一些特别的追踪技巧,比如多策略追踪方法、动态规划、和基于网络流的方法,来追踪文本然后在传递帧中启发式组合检测结果。但它们本质上是基于单帧检测方法,并且检测器的训练独立于追踪。更多地,它们没有充分利用视频丰富的时间信息。Wang等人注意到北京区域的线索可以促进视频文本检测。然而,他们仅考虑了短期依赖。毫无疑问一些结构如光流、Conv3D、和ConvLSTM对于捕捉空间-时间信息是有效的。受此激励,文本中,我们使用ConvLSTM在框架的视频文本检测分支。在长期空间-时间记忆和在线追踪的帮助下,我们端到端视频文本检测器达到了更好的性能。

方法

A. 整体框架

在这里插入图片描述
图2 带有在线追踪的视频问文本检测框架。

提出的方法,如图2所示,在一个统一的框架中通过描述符生成模块整合了视频文本检测和追踪。给一个视频,所有帧都应该通过一个骨干网(ResNet50+U-Net)来提取常见特征用于检测和追踪。对于视频文本检测,我们采取无锚框回归方式来逐像素检测单词四边形。注意到一个ConvLSTM块后跟着共同特征来提取空间-时间信息。ConvLSTM的优势显示在表1中。对于视频文本追踪,首先检测到的提案和当前帧的公共特征图被输入进描述符产生模块,然后输出对应外形-几何描述符 A G D t AGD_t AGDt。为了联系连续帧的文本实例,帧 ( t − 1 ) (t-1) (t1)的描述符 A G D t − 1 AGD_{t-1} AGDt1通过GRU单元产生 E A G D t − 1 EAGD_{t-1} EAGDt1。意味时刻 t t t外形-几何描述符的估计状态。之后,基于 E A G D t − 1 EAGD_{t-1} EAGDt1 A G D t AGD_t AGDt 构建相似性矩阵,其中属于同一轨迹的两文本提案应该在相似矩阵上有一个小的度量距离。在在线文本追踪的帮助下,我们的方法能够改善视频文本检测的性能。

B. 文本检测分支

视频中的文本通常出现在带有丰富时间信息的连续帧里。大多数现存方法中,视频文本检测通常在单个帧或具有短期依赖性的集成时间信息中执行。为了解决这个问题,我们合并一个ConvLSTM块进文本检测分支以便在保持结构属性的同时跨时间传播帧级信息。因此,在第 t t t帧的推理特征图 F t F_t Ft的公式为:

( F t , s t ) = C o n v L S T M ( M ( I t ) , s t − 1 ) (F_t,s_t)=ConvLSTM(M(I_t),s_{t-1}) (Ft,st)=ConvLSTM(M(It),st1)

本公式中, M ( I t ) M(I_{t}) M(It)是由骨干网获得第t帧 ( I t ) (I_t) (It)的共同特征映射。 s t − 1 s_{t-1} st1 s t s_t st分别表示 t − 1 t-1 t1 t t t时刻的ConvLSTM隐藏状态。这样,特征可以由先前的帧直接调制,并在很长的时间范围内递归地依赖于其他帧。

整合时间信息后,卷积操作应用于做密集逐像素的单词级预测。与EAST相似,文本实例四边形标注中的像素被认定为正。对于每个正样本,由以下8个通道预测四边形4个顶点的偏移。因此,检测分支的损失由两项组成:文本/非文本分类项,和四边形偏移回归项。第t帧的检测损失详细定义如下:

L d e t ( t ) = L c l s ( t ) + α L o f f ( t ) L_{det}(t)=L_{cls}(t)+\alpha L_{off}(t) Ldet(t)=Lcls(t)+αLoff(t)

其中 L c l s ( t ) L_{cls}(t) Lcls(t)是用dice loss衡量文本/非文本分类, L o f f ( t ) L_{off}(t) Loff(t)是smooth-L1损失衡量回归偏置的质量。 α \alpha α是超参数,我们实验中设为5。另外,我们使用NMS来获取初步检测结果,并将top-K个提案输入到下一追踪分支。

C. 文本追踪分支

为了在一些难场景如遮挡、移动模糊中提高文本实例表达的鲁棒性,本部分提出了一个有效且高效的描述符生成模块来产生文本候选区的描述符,其不仅包含了几何特征同时包含了外形特征。相同文本候选出现在下一帧的描述符是通过一个GRU单元估计得到,GRU单元能利用轨迹历史信息,并捕获长期多目标变化过程信息。

我们定义了一个新描述符,叫外形-几何描述符( A G D AGD AGD)对于每个文本候选。来自检测分支保留的 k k k个提案描述符,表示为 A G D t AGD_t AGDt,包含两部分:第一部分为外形特征,由ROI Transform层从公共特征图 M ( I t ) M(I_t) M(It)中字符候选有效区域提取得到。第二部分为几何特征,由四边形坐标嵌入值(Embedding values)构成。
在这里插入图片描述
图3 描述符生成。

如图3所示,我们首先使用ROI Transform层从共享的特征图中提取K个文本候选的初始文本特征块。然后紧接三个 3 ∗ 3 3*3 33卷积核的卷积层和一个全局池化层来产生最终外形特征, t t t时刻的表示为 f t a f_t^a fta。接着,我们把j检测到K个提案的所有规范化坐标向量 { g n ∣ n = 0 , … , 7 } \{g_n|n=0,…,7\} {gnn=0,,7}输入到由两个全连接层构成的几何嵌入层,得到 t t t时刻最终几何特征,叫 f t g f_t^g ftg。最终,外形特征 f t a f^a_t fta和几何特征描述符 A G D t AGD_t AGDt,可以如下表示:

A G D t = C o n c a t ( [ f t a . f t g ] ) AGD_t=Concat([f_t^a.f_t^g]) AGDt=Concat([fta.ftg])

然后,我们把描述符输入到一个GRU单元来估计相同实例出现在下一帧的描述符,叫估算外形-几何描述符( E A G D EAGD EAGD)。就我们所知,GRU是一个捕获时间变化信息的高效结构。因此,我们选择匹配当前帧的描述符与前一帧估计描述符,而不是建立基于两相邻帧的外形-几何描述符的相似矩阵。当前帧的估计描述符 E A G D t EAGD_t EAGDt可以如下表达:

( E A G D t , h t ) = G R U ( A G D t , m a s k t ∗ h t − 1 ) (EAGD_t,h_t)=GRU(AGD_t,mask_t*h_{t-1}) (EAGDt,ht)=GRU(AGDt,masktht1)

其中, A G D t AGD_t AGDt是当前帧文本候选的外形-几何特征, h t − 1 h_{t-1} ht1是前一帧GRU的隐藏状态。具体地, m a s k t mask_t maskt是控制是否需要重置GRU隐藏状态的隐藏掩膜。掩膜会被置为0当实例不存在于前一帧中,否则,一直为1。

视频文本追踪在维持文本实例的标识时,尝试匹配相邻帧中属于同一目标的文本实例。为了简化此问题,我们通过定义一个关联目标函数将文本实例关联转换为成对匹配,其中描述符表示应该更接近正对,远离负对。因此,此任务适用对比损失, t t t时刻的追踪损失 L t r a c k L_{track} Ltrack可以表示如下:

L t r a c k ( t ) = 1 K 2 ∑ 1 ≤ i ≤ K ∑   1 ≤ j ≤ K y d 2 + ( 1 − y ) m a x ( m − d , 0 ) 2 L_{track}(t)=\frac 1 {K^2} \sum _{\mathclap 1≤i≤K}\sum _{\mathclap ~1≤j≤K}yd^2+(1-y)max(m-d,0)^2 Ltrack(t)=K211iK 1jKyd2+(1y)max(md,0)2

其中 d d d表示相邻帧文本实例的欧氏距离, y y y是对标签 L i . j t L_{i.j}^t Li.jt,值为1表正对,0表负对。 m m m是边距值,实验中设为1.0。

最后,结合公式2中的检测损失 L d e t ( t ) L_{det}(t) Ldet(t),完整的多任务损失函数为:

L d & t = 1 N ∑ 1 ≤ t ≤ N L d e t ( t ) + β L t r a c k ( t ) L_{d\&t}=\frac 1 N \sum_{\mathclap 1≤t≤N}L_{det}(t)+\beta L_{track}(t) Ld&t=N11tNLdet(t)+βLtrack(t)

N N N是视频帧的长度, β \beta β是控制权衡检测和追踪损失的超参。 β \beta β实验中设为0.1,不同 β \beta β值对于最终结果的影响很小。

D. 推理

在推理阶段,我们提出了一个高效和鲁棒的在线轨迹生成方法来改善视频文本检测的性能。出现在算法1中。除此之外,本方法在TITAN Xp上的推理速度可以达到24.36fps。
在这里插入图片描述

实验

A. 数据集

  • ICDAR 2013 Video 本数据集由28个持续10s-1min的室内室外场景构成。13个视频用于训练,15个用于测试。帧大小在720×480-1280×960范围。
  • Minetto Dataset Minetto Dataset由5个室外场景视频组成。帧大小为640×480,所有视频用于测试。
  • YVT 本数据集包含30个视频,15个用于训练,15个用于测试。不同于以上两个数据集,它除了景色视频还有网络视频。帧大小为1280×720。

B. 实施细节

在ImageNet预训练的ResNet50作为我们初始化模型。使用带有初始为 1 0 − 4 10^{-4} 104、每1万此迭代下降0.94倍的lr的Adam来训练模型。所有训练视频均来自 ICDAR2013 和 YVT 的训练集,并进行了数据增强。随机裁剪和调整大小操作应用于第一帧,比例从 [0.5, 1.0, 2.0, 3.0] 中选择,视频剪辑中的其他帧与第一帧采用相同的操作。帧间隔随机从1到5中选择来提高鲁棒性。实验训练中,每个视频剪辑有24帧,每帧调整大小并填充至512×512。每帧有10个检测框,包含正样本和负样本。ROI Transform层提取的检测框大小设为8×64。1个实例的外形描述符和几何描述符大小为128和8,所以 A G D AGD AGD的大小为136。所有实验在8 P40 GPUs进行,每个GPU只有1批次。

C. 视频文本检测评价

本部分,我们评价了短期和长期记忆对于视频文本检测的影响。如表1所示,采用了光流,f-measure大约下降了0.2%。显示通常目标检测追踪方法不适用于视频文本。接下来,我们在检测分支利用ConvLSTM块,并与Conv3D比较。由表1可以看出,两个方法均比单帧检测和光流优秀。ConvLSTM比Conv3D高了0.66分f-measure。视频文本检测的改善主要因为连续帧的时间信息对于视频文本检测有利,因为视频中的文本通常不会像一般对象有剧烈的变化。同时作为一个有效长期记忆提取器,ConvLSTM能比Conv3D发挥更多连续帧信息的优势,从而提高性能。
在这里插入图片描述

D. 视频文本追踪评价

表2展示了不同类型的追踪描述符的影响。我们采用管饭使用的CLEAR MOT度量,包括MOTP(Multi-Object Tracking Precision)和MOTA(Multi-Object Tracking Accuracy)作为追踪评价度量。MOTP是所有帧中匹配对的估计位置平均误差。同时MOTA计算追踪器产生的误差,即假阳性、错过、和误匹配。首先,外形和几何描述符分别研究。与外形特征相比,使用几何特征的性能领先了1.25%。然而,当把它们拼接一起使用时,性能提升了7%。由于外形和几何特征能够在追踪过程中捕获不同局部信息,将两者结合起来能够更加鲁棒。然后,为了评价提出估计描述符的GRU的有效性,我们尝试直接关联相邻帧的 A G D AGD AGD,而不是匹配当前帧 A G D AGD AGD和前一帧获得的 E A G D EAGD EAGD。最后,这个匹配方法结果将近损失了6%MOTA。这突出表明GRU捕获的时间变化信息也在视频文本追踪中起到重要的作用。

E. 与SOTA视频文本检测方法的比较

本部分,我们在三个公共视频文本数据集上比较了我们的方法与SOTA方法。如表3所示,我们总结了不同视频文本检测方法,并且我们的方法优于其他方法2%f-mearsure。

我们的方法使视频文本检测的精度和召回率大大提高。这主要因为我们端到端联合训练并引入了长期记忆机制。具体地,在端到端推理过程,检测结果可以随着轨迹的更新而调整,长时间记忆可以抑制一些负样本,以致更多的准确结果,在表三中表示为“Our end-to-end detection with online tracking”。

对于训练,除了Sec. 4-B中引入的配置,YVT模型在其自己包含许多网络视频的训练集上微调。对于测试,ICDAR2013上的长边被调整为1280。同时,评估中Minetto和YVT作为输入的图像不会调整大小。此外,没有进行多尺度测试,因为它太慢,尤其是对于视频来说不切实际。
在这里插入图片描述

结论与未来工作

本工作中,我们呈现了一个根据视频场景文本特性在线追踪的端到端视频文本检测框架。提出的 A G D AGD AGD E A G D EAGD EAGD用于转换长期多目标变化过程成一个可训练模型。通过共享卷积特征,文本追踪分支几乎无开销。在推理阶段,文本检测结果随着轨迹在线生成而获得。在视频文本数据集上的 实验展示了我们的方法在检测和追踪上均明显优于以往方法。然而,仍有一些缺点:轨迹生成没有合并在训练过程里,语义信息也还未开发。未来,我们计划加入视频文本检测、追踪、和识别成一个端到端框架。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值