[论文翻译]Semantic-Aware Video Text Detection

语义感知视频文本检测

摘要

现存大多数视频文本检测方法使用外观特征跟踪文本,这非常容易受到角度和光照的影响。与外观特征相比,语义特征对于匹配文本实例更加具有鲁棒性。本文中,我们提出了一个新字符中心分割分支来提取编码了字符类别和位置的语义特征。首先,我们提出了一个新外观-语义描述符来追踪文本实例,其中语义特征能够改善外观变化的鲁棒性。为了克服字符级标注的缺失,我们提出了一个新弱监督字符中心检测模块,该模块仅使用单词级标注的真实图片类产生字符级标签。提出的方法在3个视频文本基准ICDAR 2013 Video,Minetto和RT-1K,以及两个中文场景文本基准CASIA10K和MSRA-TD500达到了SOTA表现。

1 引言

视频文本检测目标于定位并追踪视频中的文本实例。近些年,由于它在视频分析和多媒体信息数据检索的广泛使用,它已经引起了很多注意。尽管之前的方法对文本检测和跟踪都做出了巨大的贡献,但这仍是一项有挑战性的工作因为运动模糊和照明变化。

大多数现有方法把文本检测和追踪分别对待,首先检测单帧,然后基于检测结果进行追踪。然而,这些方法忽视了时间文本和检测与追踪之间的信息交互。最近,Yu等人提出了一种端到端可训练框架来整合文本检测和追踪,其中外形几何描述符主要基于文本外形,这非常容易受到视角和光照变化影响。与外形特征相反,语义特征是匹配文本实例的稳定提示。比如,大多数文本实例匹配失败因为巨大视角变化如图1(a)。然而,相同文本实例从不同角度来看字符位置和类别是相似的。当存在先验语义特征的时候,可以如图1(b)一样纠正错误匹配结果。尽管单词级和字符级标注都提供语义信息,字符级标注包含更多的细节结构信息,这对于文本追踪更加有利于参考。不幸的是,真实数据集的字符级标注成本太高。

在这里插入图片描述
图1 a)从不同角度,文本外形变化非常大,这使得追踪分支难以匹配到实例。b)字符的类别和位置能够帮助追踪分支更准确地匹配实例。相同颜色地边框属于同一轨迹,点表示字符中心。

为了自动产生真实数据集的字符级标注,一些方法提出弱监督学习这一途径。在这些方法中,一个字符检测器首先在合成数据集上训练,然后再在真实图像上训练检测字符。这些方法主要有两个缺点。一方面,合成图像和真实图像有巨大的域差,这使得字符检测器在真实图像上的性能不令人满意。另一方面,广泛使用的合成数据集只有英文,所以该种方法难以适用于其他没有合成数据的语种。

为了克服缺少字符级标注数据的同时发掘视频文本检测中的语义信息,我们提出了一个语义感知的视频文本检测框架,如图2,其中字符级标注直接由单词级真实数据产生。具体地,一个ConvLSTM块用来传播帧级信息,以便充分利用视频上下文内容。然后,Mask R-CNN中mask头的一个字符中心分割任务设计用来字符的编码位置和类别作为语义特征。基于外形特征和新加的语义特征,Appearance-semantic-geometry descriptors(ASGD)引入用来稳定表示文本实例,其与存储的先前帧的ASGD匹配以实现文本跟踪。尽管提出的框架需要字符级标注,我们采用一个基于文本识别器的滑窗来自动检测字符中心,而识别器只需要单词级标注的真实图像来训练。这使得我们的框架易于应用在多种语种,比如中文,这一典型多字集。就我们所知,这是第一个引入语义特征到文字检测追踪的视频文字检测器,并且只使用单词级标注真实图像生成字符级标注。

我们的贡献有3方面:
1)提出了一个新型端到端视频文字检测器,统一了文本、字符检测,和文本追踪。
2)提出了一个外形-语义-几何描述符,其中语义特征帮助改善外形变化的鲁棒性。
3)字符级标注以弱监督方式产生,这提高了我们方法的实用性。
提出方法在文本检测和追踪都同样有效,已经在3个视频文本数据集ICDAR 2013 Video,Minetto,和RT-1K,以及两个中文场景文本数据集CASIA10K和MSRA-TD500上达到了SOTA表现。

2 相关工作

视频中的文本检测工作通常结合一个单帧文本检测器和一些专门的追踪技术。因此,我们回顾了单帧文本检测器和视频文本检测的相关工作。更多细节,详见调查[51, 48, 55]。

2.1 单帧文本检测器

传统方法首先检测文本部件,然后将这些组件聚合成最终检测结果。这些方法的缺陷在于误差累积和效率低下。基于回归的方法采用了类似于一般目标检测的思想,但有一些特定文本的修改。为了检测任意形态文本,一些方法首先检测本地单元,然后把它们聚合成最后结果。

最近,一些方法使用字符级标注来给文本检测提供细节语义信息。Baek等人通过探索每个字符和字符间的亲和度来检测文本实例。Xing等人一次性检测单词和字符的边框。Liao等人在Mask R-CNN的基础上增加了一个字符分割分支。然而,这些方法需要合成数据集来预训练字符检测器。不同于这些方法,我们提出的方法直接从真实数据集中产生字符级标签,这更具有实际意义。

2.2 视频文本检测

大多数视频文本检测方法基于追踪单帧检测结果。Zuo等人提出了一个多策略文本追踪方法,融合了多种追踪技术的优点。Tian等人提出了一个统一的基于动态规划的文本检测系统追踪方法。Yang等人使用基于运动的方法跟踪相邻帧中的提案。然而,这些方法忽视了视频中的时间内容。

为了捕捉空间-时间信息,Wang等人利用了连续帧中的文本线索的时间相关性。Yu等人使用ConvLSTM来捕捉长时间空间-时间信息。尽管这些方法已经有了很大的进步,但是追踪分支还是主要基于文本外形特征,对于外形变化非常敏感。我们提出的方法采用了一个外形-语义-几何描述符,使得框架对外形变化具有鲁棒性。

3 方法

图2为提出端到端视频文本检测器的总览。stem网络提取视觉特征后,一个ConvLSTM块用于提取空间-时间信息。然后,我们嵌入一个字符中心分割任务在mask头中来定位识别字符,这可以提取语义特征。最后,文本追踪头产生外形-语义-几何描述符,用于与前帧检测到的文本实例进行匹配。另外,引入一个基于文本识别器的滑窗来为字符中心分割任务提供字符级标签。文本识别器以弱监督方式定位字符中心。接下来,我们将详细描述文本检测、文本追踪、弱监督字符检测和推理流程。

在这里插入图片描述
图2 总览提出的框架。一个字符中心分割任务嵌入在Mask R-CNN的mask头中提取语义特征,使外形-语义-几何描述符(ASGD)对外观变化具有鲁棒性。

3.1 文本检测

与场景图像不同的是,视频总是包含冗余的时间信息。因此,我们采取了一个ConvLSTM块来整合长期的时间信息。将第 t t t帧由主干网络提取的视觉特征表示为 V t V_t Vt。ConvLSTM块的输出 F t F_t Ft可以表示为:

( F t , h t ) = C o n v L S T M ( V t , h ( t − 1 ) ) (F_t,h_t)=ConvLSTM(V_t,h_{(t-1)}) (Ft,ht)=ConvLSTM(Vt,h(t1))

其中 h t h_t ht h ( t − 1 ) h_{(t-1)} h(t1)表示时间 t t t t − 1 t-1 t1时刻的隐藏状态。这样,特征可以在长时间范围内传播帧级信息。

整合时间信息后,我们采用Mask R-CNN来预测轴对齐的矩形边框和对应的实例分割掩膜,这包含两阶段。首先,一个区域提案网络(RPN)用来提出一组候选文本RoI。接着,RoIAlign操作从每个RoI中的 F t F_t Ft提取特征,提取的特征用于分类,边框回归和实例分割。由于Mask R-CNN以实例分割的方式检测任意形状的文本,我们为每个任意形态的文本掩膜匹配了一个最小封闭的旋转矩形。

为了增强检测性能并提取后续跟踪头部的语义特征,我们在Mask R-CNN的基础上添加了一个字符中心分割分支。这个分支有两个带有3×3核的卷积层和一个stride2的上采样层。接着,特征图用于生成最终通道数为 S S S的分割图, S S S是字符类别数加背景类别的总数。对于每个字符中心,我们认为中心附近距离 r r r以内的像素为正。参数 r r r与文本边界最短边成0.2比例。然后,通过在一个零初始化的掩膜上绘制扩展的字符中心区域并用它们相应的类别索引填充这些区域生成GT图 C ∗ C^* C。将 C ∗ C^* C中像素点的数量表示为 N N N。字符中心分割的损失函数是一个加权空间softmax损失,如下:

L c h a r = − 1 N ∑   n ∈ N W n ∑   s ∈ S C n , s ∗ l o g ( e C n , s ∑   k ∈ S e C n , k ) L_{char}=-\frac 1 N \sum_{\mathclap ~n \in N}W_n\sum_{\mathclap ~s \in S}C^*_{n,s}log(\frac {e^{C_{n,s}}} {\sum_{\mathclap ~k\in S}e^{C_{n,k}}}) Lchar=N1 nNWn sSCn,slog( kSeCn,keCn,s)

其中 C C C表示输出图, W W W是权重矩阵来平衡正负损失。正像素和负像素的数量分别为 N p o s N_{pos} Npos N n e g N_{neg} Nneg。正像素的权重为1,负像素的权重为 N p o s / N n e g N_{pos}/N_{neg} Npos/Nneg

结合字符中心分割损失,文本检测损失函数计算如下:

L d e t = L r p n + α 1 L m a s k + α 2 L m a s k + α 3 L c h a r L_{det}=L_{rpn}+\alpha_1L_{mask}+\alpha_2L_{mask}+\alpha_3L_{char} Ldet=Lrpn+α1Lmask+α2Lmask+α3Lchar

其中, L r p n L_{rpn} Lrpn L r c n n L_{rcnn} Lrcnn L m a s k L_{mask} Lmask分别表示RPN,Fast R-CNN和实例分割的损失函数。 α 1 \alpha_1 α1 α 2 \alpha_2 α2,和 α 3 \alpha_3 α3均设为1。

Mask TextSpotter v1-v2也结合了原始Mask R-CNN和字符分割任务。然而,这些方法需要字符级标注的合成图片与真实图像训练。不同于Mask TextSpotter,我们检测器所使用的字符级标注均只来自于单词级标注真实图像,将在3.3中描述。

在这里插入图片描述
图3 提出的描述符 A S G D t ASGD_t ASGDt包含外形特征 f t a f^a_t fta,语义特征 f t s f^s_t fts,和几何特征 f t g f^g_t ftg

3.2 文本追踪

以前的方法利用从文本RoI中提取的外形特征追踪文本。但是,大致的外形特征使得文本追踪很容易受到视角和照明变化的影响。不是只考虑文本外形特征,我们认为语义特征可以提供稳定先验信息给追踪。因此,我们编码字符的位置和类别作为追踪任务的一部分输入。为了稳健地表示文本实例,我们提出了一个新地外形-语义-几何描述符(ASGD),包含图3所示3个部分。首先,我们利用RoIAlign层提取RoIs中 F t F_t Ft的特征,然后两个全连接层用来将提取的特征映射成新的。我们把新特征称谓文本外形特征 f t a f_t^a fta。第二,我们同样使用两个全连接层来映射字符分割分支第二卷积层的中间特征成语义特征 f t s f_t^s fts,它编码了字符的位置和类别。第三,RoIs的坐标嵌入为几何特征 f t g f_t^g ftg。最后,这三部分拼接成描述符 A S G D t ASGD_t ASGDt。如下表示:

A S G D t = C o n c a t ( [ f t a , f t s , f t g ] ) ASGD_t = Concat([f_t^a,f_t^s,f_t^g]) ASGDt=Concat([fta,fts,ftg])

为了训练文本追踪分支,我们使用一对帧,一个作为查询帧,一帧作为参考帧。对于查询帧,我们提取与GT至少有70%IoU的RoIs中的特征。对于参考帧,我们不需生成RoIs,可直接使用GT框的区域提取特征。为了匹配相同目标的文本实例,我们与[52]的想法相同,使得描述符对于正对接近,负对远离。但是,正对之间的距离难接近0,因为运动引起的差异。因此,我们采用基于对比损失的平滑双边际损失。将ASGD中查询帧和参考帧之间的距离定为 d d d。文本追踪的损失函数可以表示为:

L t r a c k = y ( R ( d − m p ) ) 2 + ( 1 − y ) ( R ( m n − d ) ) 2 L_{track}=y(R(d-m_p))^2+(1-y)(R(m_n-d))^2 Ltrack=y(R(dmp))2+(1y)(R(mnd))2

其中 R R R表示 R e L U ReLU ReLU函数, m p m_p mp m n m_n mn表示正对和负对的边缘。我们令 m p = 0.3 , m n = 1.0 m_p=0.3,m_n=1.0 mp=0.3mn=1.0 y y y是对标签,1表正对,0表负对。

对于文本检测和追踪的端到端训练,整个损失函数可以如下表示:

L = L d e t + β L t r a c k L=L_{det}+\beta L_{track} L=Ldet+βLtrack

其中, β \beta β是平衡检测和追踪的超参。在实验中设为0.5。

3.3 弱监督字符检测

因为字符级标注需要非常多的人工,以前的方法通常使用合成数据集产生字符级标签。但是,合成数据集主要是英语,并且合成图片和真实图片之间有非常大的域差。因此,我们提出了一个弱监督字符检测模块来为字符中心分割任务提供字符级标签,只需要单词级标注真实图片。在训练集上产生字符级标注的流程如图4。首先,使用RoIRotate操作将文本实例转成轴对齐的。接着,采用基于滑窗的文本识别器来分类每个窗口。当字符位于滑窗的中心时,识别器能以高分识别出字符。当滑窗中心与字符不对齐时,识别器会输出空白标签或者低分。最终,我们在滑窗上实施了NMS,并将选取的滑动窗口中心转换回输入图像作为字符中心标签。

在这里插入图片描述
图4 生成字符级标签的管线。识别结果中,第一项是分类结果,第二项为分数。“-”表示空白。为更好的可视化,我们只显示了部分滑窗。
在这里插入图片描述
表1 基于文本识别器的滑窗结构。每一卷积层后跟着批量归一化层,和一个ReLU层。 S S S是字符类数,对英文集是37,中文集7357。

为了训练文本识别器,我们首先转换训练集的文本实例成轴对齐的,高度统一为32。然后在转换后的文本实例上用步长为 l l l的窗口滑动。对于英文文本 l = 2 l=2 l=2,中文 l = 4 l=4 l=4。最终,将滑窗输入到一个类似VGG的网络,并分类。文本识别器的结构如表1。为了将标签分布解码成最终序列,我们采用Connectionist Temporal Classification(CTC)解码,并假定每个滑窗为一个时间步长。令CTC路径为 π \pi π,映射函数为 B B B。GT真值 y ∗ y* y的条件概率是B中所有路径的概率之和(翻译不是很对,原文“the sum of the probabilities of all the paths by B”

P ( y ∗ ∣ X ) = ∑   π ∈ B − 1 ( y ∗ ) P ( π ∣ X ) P(y^*|X)=\sum _{\mathclap ~\pi \in B^{-1}(y^*)}P(\pi |X) P(yX)= πB1(y)P(πX)

目标是最大化上面公式的对数似然性。文本识别的损失函数如下:

L r e c = − l o g   p ( y ∗ ∣ X ) L_{rec}=-log~p(y^*|X) Lrec=log p(yX)

尽管文本识别器容易拟合小数据集,但在大型数据集上难以达到满意表现,尤其在字符类别分布不均衡的情况下。因此,我们提出了一个迭代训练处理来改善在训练集上的性能。我们使用一个简单的规—如果识别结果与GT相同时,认定字符中心检测结果为“正确”。提出的迭代训练处理具体如下:

i)首先在整个训练集上训练最初文本识别器直到损失变得稳定。然后,在相同的训练集上测试模型。

ii)根据以前的规则,我们选择带有正确识别结果的文本实例来构建字符级标签,并把它们从训练集中移除。训练的文本识别器继续在减少的训练集上训练。

iii)训练过程是迭代进行来改善字符中心检测结果。如实验所示,当迭代次数增加,文本识别器可以把注意更多地放在难样本和稀少字符上。

3.4 推理

该方法生成文本检测结果,并以在线方式匹配检测到的文本实例。对 t t t时刻的一帧,我们首先检测所有的文本实例,并用公式4获取对应的 A S G D t ASGD_t ASGDt。然后,计算 A S G D t ASGD_t ASGDt和先前检测到的文本实例的存储 A S G D ASGD ASGD之间的相似性矩阵。最后,使用阈值为 θ m \theta_m θm的Kuhn-Munkres算法得到匹配对。如果文本实例找到匹配的文本实例,我们就更新存储中的轨迹集和对应的 A S G D ASGD ASGD。注意每个轨迹集只保存最新的 A S G D ASGD ASGD。对于没有匹配到的文本实例,我们为它们建立新的轨迹,并在内存中插入它们的 A S G D ASGD ASGD。总之,提出的方法在ICDAR 2013 Video数据集上能达到9.6FPS。

4 实验

我们在3个英文视频数据集上评估了文本检测和追踪性能。因为没有公开的非英文视频数据集,我们在两个中文场景图片数据集上证明了我们方法在非英文数据集上的应用性。

4.1 数据集

ICDAR 2013 Video。本数据集包含13个训练视频和15个测试视频,它们是从室内外场景采集的。分辨率从720×480到1280×960。另外,每个文本以单词级的4点矩形标注。

Minetto。Minetto数据集有5个室外视频。分辨率固定为640×480。每个文本是用轴对齐的边框标注的。用ICDAR 2013 Video训练的模型,直接测试该数据集。

RT-1K。RT-1K数据集包含1000个道路视频,包含700训练,300测试。我们在此数据集上评估来证明提出方法在大尺度视频文本集上的优越性。

CASIA10K。这个数据集是大尺度中文场景文本集,包含7000训练图片和3000测试图片。鉴于无广泛使用的中文合成数据集,以前的方法难以获得字符级标注。

MSRA-TD500。MSRA-TD500由300张训练图片和200张测试图片构成。主要是中英文,每个文本是行标注。

4.2 实施细节

本方案实施于PyTorch,在常见工作站Nvidia Titan Xp上运行。我们采用ResNet-50-FPN作为茎网络,它已经在ImageNet数据集上预训练过。Mask R-CNN的配置遵循MS COCO上的公共实施。整个模型训练12 epochs。初始学习速率为0.03,在第8个和第11个epochs上衰减10倍。测试时,输入图像的短边固定为800像素。

基于文本识别器的滑窗输入图像固定为高32像素,不改变横纵比。为了并行训练,将宽度填充至512。训练识别器的初始lr为0.1,在epoch 50和80,衰减0.3倍(×0.3)。在迭代训练阶段,我们固定学习速率为0.009,当损失变得平稳时,结束训练。训练阶段数为3。

4.3 与SOTA相比

我们在一些数据集上与以前的工作相比,来证明本方法的优越性。

4.3.1 视频文字检测

我们的方法在3个视频文本数据集上达到了SOTA性能,见表2,3,4,5。在语义特征的帮助下,我们的方法对于视角和照明的变化是鲁棒的,并在文件检测和追踪任务中表现优于以往工作。值得注意的是,用于训练阶段的字符级标注来源于弱监督方法,这更具实践意义。一些定性结果如图5所示。
在这里插入图片描述
图5 文本检测和追踪结果。第一二行:视频文本检测。相同颜色的框属于同一轨迹。第三行:单帧文本检测。

4.3.2 单帧文本检测

我们的方法同样在两个中文场景文本数据集上达到SOTA,见表6,7。单帧检测器是除开ConvLSTM块和文本追踪损失的部分。因为本方法只需要单词级标注真实图,所以非常容易应用在非英文数据集上。我们同样与其他基于字符的方法比较了在英文场景文本数据集ICDAR 2015的检测表现。见表8。本方法与SOTA方法(需要合成数据集来生成字符级标签的)可一较高下。这显示了本方法的优越性。一些单帧文本检测器结果如图5。

4.4 消融研究

我们进行了一些比较实验来证明语义特征、迭代训练处理、和端到端训练的优势。
在这里插入图片描述
表2 ICDAR 2013测试集上视频文本检测结果。“W/o sf”表示没有语义特征。
在这里插入图片描述
表3 Minetto测试集上视频文本检测结果。“W/o sf”表示没有语义特征。
在这里插入图片描述
表4 RT-1K测试集上视频文本检测结果。“W/o sf”表示没有语义特征。除了我们模型之外的数据从[27]中获得。
在这里插入图片描述
表5 Minetto测试集上视频文本追踪结果。“MOTP”和“MOTA”表示多目标追踪精度和多目标追踪准确率。“W/o sf”表示没有语义特征。
在这里插入图片描述
表6 CASIA10K测试集上检测结果。“W/o sf”表示没有语义特征。除了我们模型之外的数据从[11]中获得。
在这里插入图片描述
表7 MSRA-TD500测试集上检测结果。“W/o sf”表示没有语义特征。
在这里插入图片描述
表8 ICDAR 2015测试集上的检测结果。“P、R、F”分别表示Precision, Recall, F-measure。

4.4.1 语义特征的影响

字符的位置和类别能够提供稳健的语义特征给文本追踪和检测。没有了语义特征,文本追踪很容易受到外形变化的形象。同时,检测器可能忽视掉一些不显眼的文本实例。为了证明语义特征的优点,我们评估了本方法的一个变体,该变体消除了字符中心分割损失,并且文本跟踪分支中的描述符仅由外观和几何特征组成。见表2,3,4,5,提出方法在文本检测和追踪上仅优于一个没有使用语义特征的方法。我们同样展示了没有语义特征在中文数据集上的性能,见表6,7,这说明了语义特征对于中英都有好处。

4.4.2 迭代训练的影响

提出的迭代训练处理目的是逐渐提高字符中心检测性能,尤其是当字符分布不均匀时。为了证明迭代训练的重要性,我们从CASIA10K中标注了500张图像的字符中心,并评估了每个迭代中字符检测性能。如表9示,初始行准确率和字符检测表现非常差,因为字符类别多且不均匀。随着迭代数增加,行准确率与字符检测效果持续上升。在3个迭代步骤后,行准确率与字符检测效果超过95%,这使得我们可以只利用单词级标注真实图片训练字符中心分割分支。一些定性结果见图6。
在这里插入图片描述
图6 迭代训练处理可以改善大尺度数据集的字符中心检测性能。从左到右:初始-最终检测结果。黄色点表示字符中心检测结果。红色短线框表示初始文本检测器难以检测有噪点,朦胧和少见的字符。
在这里插入图片描述
表9 迭代训练改善了字符检测性能。“Line Accuracy”基于CASIA10K整个训练集评估。“Detection accuracy”基于500张我们自标注的图像评估。在Step0,文本识别器训练100epochs,其他steps则是20epochs。

4.4.3 端到端训练的影响

大多数以往方法将文本检测和追踪分开执行,这就忽视了两者之间的相关性。不像这些方法,本方案在一个端到端框架中统一了检测与追踪。为了证明端到端训练的效果,我们评估了一个检测与追踪分离的本方案变体。见表2,3,5,提出方法优于变体“两阶段”一大截,这说明了这两个任务彼此有益于对方。

5 结论

本文提出了一个新型语义感知的视频文本检测器,通过合并语义信息来改善检测和追踪性能。文本检测器同时检测文本实例和字符中心,可以提取语义特征。有了语义特征的帮助,文本追踪分支面对外形变化时更有鲁棒性。并且,我们提出了一个基于文本识别器的滑动窗口,可以从单词级标注真实数据集中生成字符级标签,这避免了对合成数据集的要求及其缺点。在一些数据集上的实验证明了本方法的有效性。未来的改进工作将是结合多级语义特征来处理更复杂的场景视频。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值