DRRG翻译.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

最新推荐文章于 2024-05-25 10:02:28 发布

葛葛葛立鹏啊

最新推荐文章于 2024-05-25 10:02:28 发布

阅读量1.7k

点赞数 7

分类专栏：文献文章标签： python 神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_44929101/article/details/109121822

版权

文献专栏收录该内容

5 篇文章 0 订阅

订阅专栏

摘要

由于场景文本的多样性和复杂性，任意形状文本检测是一项具有挑战性的任务。在本文中，我们提出了一种新颖的统一关系推理图网络用于任意形状的文本检测。在我们的方法中，一个独创的局部图构建了文本建议模型，通过卷积神经网络（CNN）和基于图关系卷积网络的深度关系推理网络（GCN），使我们的网络达到端到端训练。具体来说，每个文本实例都将分成一系列小的矩形组件，小组件的几何属性（例如高度，宽度和方向）将通过文本目标模型进行估算。给定几何属性，局部图构造模型可以大致建立不同文本组件之间的联系，为了进一步的推理并推论组件与其相邻对象之间链接的相似性，我们采用基于图网络对局部图进行深度关系推理。在公开数据集上进行的实验证明了我们方法的最新性能。

1.介绍

场景文本检测已广泛应用于各种应用程序，例如在线教育，产品搜索，即时翻译和视频场景解析[39，26]。随着深度学习的逐渐发展，文本检测算法[27、42、21、19]在受控的环境下，例如文本实例具有规则的形状或长宽比能达到很好的效果，但是，由于文本限定的代表形式，往往无法发现具有任意形状的文本。近些年一些方法例如TextSnake [17] and CRAFT [1],尝试用CC（一些列的组件定位字符，最后合并组件）的方法来解决这个问题，然而，这些方法无法获得文字组件之间的更丰富的关系，从而无助于文本实例的划分。
在基于CC的方法中，一项基本任务是挖掘分离的字符/组件区域之间的合理关系，以将它们链接为整体文本实例。现有方法通常使用预先定义的规则，链接映射或嵌入映射来划分文本实例。一般来说，链接映射和嵌入映射比使用预定义规则鲁棒性更好，尤其是在长文本和曲线文本的情况下。从我们的观察和实验中，利用深度关系推理来挖掘这些组件区域之间的稳定关系能极大的提高任意形状文本检测的性能。基于链接映射或嵌入映射的方法[21，28]通常使用CNN来推论各个组件的链接关系，但是这些分离的组件实际上是非欧几里得数据，而CNN在处理非欧几里得数据时效果并不好。因此，简单链接映射或嵌入映射不足以学习两个不相邻组件之间的稳定关系。非欧几里得数据可以用图表示，所以我们可以将单独的文本组件转换为图形，如图1所示，我们将一个文本组件视为节点。因此，我们可以选择一个节点作为枢轴并连接将其与周围的节点合并成局部图，如3.3部分所示。局部图中包含的上下文信息（节点之间的边缘）有助于估计枢轴与其他节点之间的链接可能性。众所周知，图网络在推论图上节点之间的关系方面具有先天优势。最近，基于GCN的方法在聚类人脸[33]和各种任务的全局推理[2]中取得了显著的性能。受到[33，2]论文的激励，我们应用图卷积网络对局部图执行深度推理，以推断组件和对应相邻组件之间的深度链接可能性，以进行任意形状文本检测。
在本文中，我们提出了一种新颖的统一深度关系推理图网络用于任意形状文本检测。根据CTPN [27]和TextSnake [17]，我们将每个文本实例分割为文本组件，并提出一个文本建议网络以估算这些文本组件的几何属性。要将生成的组件分组，我们采用基于图的网络来执行深度关系推理并使用组件和相邻组件的几何属性来推测链接关系。此外，设计了一个局部图来连接文本建议网络和关系推理网络，使我们的网络达到端到端训练，最后，我们根据相关结果将检测到的文本成分组合为整体文本实例。
总之，这篇论文的贡献分为以下三点：
我们提出了一种新颖统一的端到端训练任意形状文本检测的框架，包含一种新颖的局部图连接了基于CNN的文本建议网络和基于GCN的关系推理网络。
据我们所知，我们的论文提出了通过图卷积网络执行深度关系推理以进行任意形状文本检测的最早尝试之一。
所提出的方法在多边形数据集和四边形数据集上都实现了最新的性能。

在这里插入图片描述

2.相关工作

基于回归的方法。这种方法依赖具有单词级和线级先验知识[19、10、11、42]的
对象检测框架的框回归。与一般对象不同，文本通常以具有各种纵横比的不规则形状存在。为了解决这个问题，RRD [11]调整了SSD的锚定比[13]用于适应不规则形状的纵横比变化。 Textboxes ++ [10]修改了卷积内核和锚定框以有效捕获各种文本形状。 EAST [42]直接推断候选单词的像素级四边形，而无需锚定机制和候选框检测。尽管基于回归的方法在四边形文本检测方面取得了良好的性能，他们通常无法很好地适应任意形状的文本检测。
基于分割的方法。这种方法[3，30，28，34，17]主要从语义分割中获得灵感并通过估计单词边界区域来检测文本。在PixelLink [3]中，预测了一个像素与其相邻像素之间的链接关系，以对属于同一实例的像素进行分组。为了有效区分相邻的文本实例，PSENet [30]采用了渐进式缩放算法来逐步扩展预定义的内核。田等[28]将每个文本实例视为一个聚类，并通过嵌入映射来执行像素聚类。 TextField [34]采用深度方向字段来链接相邻像素并生成候选对象文字部分。但是，这些方法的性能很大程度上受到分割精度的质量影响。
基于CC的方法。基于CC的方法通常首先检测单个文本部分或字符，然后检测链接或组后处理过程以生成最终文本。在深度学习普及之前，基于CC的方法[24，38，41，37]已经广泛用于传统场景文本检测方法。在深度学习时代，基于CC的方法也得到了广泛的研究[27、21、25、1、4]。CTPN [27]使用了改进的Faster R-CNN [20]框架提取具有固定大小宽度的水平文本成分，可容易的连接密集文本组件并生成水平文本行。SegLink[21]将每个场景文本分解为两个可检测元素，即片段和链接，其中链接指示一对相邻的片段属于同一个词。CRAFT [1]通过探索每个字符和字符之间的亲和性来检测文本区域。TextDragon [4]首先检测文本的局部区域，然后根据几何关系对边界框进行分组。
关系推理。基于CC的方法通常是对于长文本或非四边形文本来说，鲁棒性强，但是这些方法的性能在很大程度上取决于分组或链接结果的鲁棒性。在[3]中，文字像素可以通过学习像素与其相邻像素之间的链接关系来聚集。在[28]中，嵌入特征常常用于提供实例信息并生成文本区域。 CRAFT [1]通过弱监督学习预测字符区域映射和亲和性映射。区域映射用于定位字符，并使用亲和性映射将字符分组为一个实例。这些方法它们是基于CNN的，由于局部卷积算子的限制，它们不能直接捕获远距离的分量区域之间的关系。最近，Wang等[33]提出了一种基于频谱的GCN来解决面部聚类的问题，设计的GCN可以合理地链接复杂情况下属于同一个人的不同面孔实例。

3.预计方法

3.1总览
我们的方法的框架如图2所示。文本组件候选框网络与深层关系推理图网络共享卷积特征，并且共享卷积使用VGG-16 [23]和FPN [12]作为骨干网络，如图3所示。文本候选框网络使用共享特征来估计文本组件的几何属性，获取几何属性后，局部图可以粗略地建立不同文本组件之间的链接。基于局部图，关系推理网络将进一步推断组件与其相邻组件之间链接的深层可能性。最后，根据推理结果文本组件将汇总为整体的文字实例。
在这里插入图片描述

3.2文本组件预测
在我们的工作中，每个文本实例都是由一系列有序的矩形组件构成的，如图4（a）所示。每个文本组件D与一组几何属性相关联，即D =（x，y，h，w，cosθ，sinθ），其中x和y是文本框的轴； h和w是组件的高度和宽度； cosθ和sinθ表示文本组件的方向。 h是h1和h2的总和，如图4（c）所示，w通过对h的线性变换获得，其计算公式为：

在这里插入图片描述
其中hi表示第i个文本组件的高度。在实验中，我们根据经验设置wmin = 8和wmax = 24。
为了定义文本组件的方向并容易的提取文本中心区域（TCR），我们使用[17]中的方法来计算文本区域的头尾，如图4（a）中的黑色箭头所示，文本区域沿长边分为一系列有序四边形区域（以黄线表示），如图4（a）所示。因此我们可以获得两组点P1 = {tp0，tp1，…，tpi，…，tpn}和P2 = {bp0，bp1，…，bpi，…，bpn}。用红点标记的线是顶线，绿点是底线。在我们的方法中，我们需要根据以下标准明确定义每个文本实例的顶部和底部：

在这里插入图片描述
其中V（V = {tp0- bp0，…，tpi-bpi，…，tpn-bpn}）是一组顶点（tpi是顶线的中心，bpi是底线的中心）。如果p> = 0，则P1为顶部，P2是底部，否则P1是底部，P2是顶部。向量vi的角度表示文本组件的方向θ。如图4（b）所示，通过缩小文本区域（TR）获得TCR。首先，我们计算文本中心线，然后，将中心线的两端缩小0.5w末端像素，使网络更容易分离相邻的文本实例，并降低NMS的计算成本。最后，我们将中心线区域扩大0.3h。提取共享特征后，应用两个卷积层来预测文本组件的属性为：
在这里插入图片描述
其中CR∈Rh×w×8，其中TR / TCR的分类logits有4个通道，h1，h2，cosθ和sinθ的回归logits也有4个通道，通过softmax TR / TCR并对平方和等于1的cosθ和sinθ进行正则化，可以得到最终的预测[17]。最终检测结果由正样本的阈值和LNMS产生。在这里插入图片描述
检测损失。文字组件预测损失为由两个损失组成，计算公式为：

其中Lreg是平滑的L1 [20]回归损失，Lcls是交叉熵分类损失。分类损失的计算公式为：
其中Ltr代表TR的损失； Ltcrp仅计算TR内部的像素，而Ltcrn仅计算TR外部的像素。 Ltcrn用于抑制TCR中的背景噪声。以这种方式，获得的TCR可以有益于后处理步骤。 OHEM [22]用于TR损耗，其中正负之间的比例设置为3：1。在我们的实验中，权重λ1和λ2分别根据经验设置为1.0和0.5。
由于非TCR区域缺少高度和方向属性，因此我们仅计算TCR区域的回归损失：在这里插入图片描述
其中hki，sinθ和cosθ是真实值，hˆ ki，ˆ sinθ和ˆ cosθ是相应的预测值； Ω表示TCR中的一组正元素； h是真值框中文本组件的高度。权重log（h + 1）对于大规模文本组件的高度回归很有帮助。在我们的论文中，将超参数β设置为1.0。

3.3局部图的生成
我们根据两个节点（文本组件）在局部图中的上下文信息来估计它们之间的链接可能性。为每个图像构造一个完整的图形效率不高，因为文本组件通常仅具有与其相邻连接的可能性。因此，我们为每个图像构造多个局部图。这些局部图通常包含有限数量的节点，这将使关系推理变得高效而容易。
我们修改了IPS [33]来生成局部图，其中将枢轴点的邻接（直到h-hop）用作节点。在我们的论文中，我们仅将2-hop用作局部图的节点。为了清楚说明，Vp用于表示局部图Gp中的节点，而p表示枢轴。 p的1-hop邻接由8个最近邻接组成，而2-hop的邻接由4个最近的邻接组成。高阶邻接提供枢纽与其邻接之间上下文的局部结构的辅助信息[33]。在这，我们仅仅考虑执行KNN运算的节点之间的欧几里得相似度Es，并计算为：在这里插入图片描述
其中D（p，vi）是p和vi之间的L2距离，Hm是图像高度，Wm是图像宽度。为避免训练中由许多相同图引起的容易样本的梯度累积，枢轴p应满足以下条件：
其中Gp和Gq是两个局部图；枢轴p和q在同一文本实例T中； Gp∩Gq是Gp和Gq的1-hop邻接的交集； Gp∪Gq是Gp和Gq的1-hop邻接的并集。在我们的实验中，ξ设置为0.75。这种策略不仅可以大大加速，而且可以减少容易样本的数量，同时又可以使难例样本和容易样本保持平衡。
3.4 深度推理网络
每个图像中的文本组件将通过局部图生成分为多个局部图，该局部图由枢轴及其2-hop邻接组成。局部图中包含的粗略链接信息（节点之间的边）对于估计枢轴及其邻接之间的链接可能性很有用。为了进一步推理和推导枢轴与它的邻接之间的联系的可能性，我们采用了一个基于图的神经网络[33，8]，以基于局部图挖掘枢纽与它的邻接之间的联系。图通常表示为g（X，A），而图卷积网络通常将特征矩阵X和邻接矩阵A作为网络的输入。因此，我们需要提取特征矩阵X并计算局部图的矩阵A。
节点特征提取。节点特征由两部分特征组成，即RROI特征和几何特征。为了获得RROI特征，我们使用RRoI-Align层，该层集成了RoIAlign [6]和RRoI [19]的优点，以提取输入文本组件的特征块。为了确保模型的收敛能力，我们在训练中使用真值框来生成文本组件。同一文本实例中的文本组件具有相似的几何特征。但是，RROI特征将丢失一些几何属性，例如位置信息。因此，在生成节点特征时，应考虑这些几何属性，如图5所示。对于一个文本组件，我们将特征映射Fn送到RRoI-Align层，然后可以获得1×3×4×Cr的特征块，在图3中显示了Fn。然后，将其reshape为1×12·Cr，即Fr。根据[29，5]中的技术，文本组件的几何属性被嵌入到高维空间中。通过将不同波长的正弦和余弦函数应用于标量z来执行嵌入：在这里插入图片描述
嵌入向量ε（z）的维数为Cε。因此，每个文本分量都嵌入到维数为6·Cε的向量Fg中。最后，将Fr和Fg连接在一起作为节点特征。
节点特征归一化。我们通过减去xp来归一化节点的特征。它将枢轴p信息编码为局部图的特征，并使关系推理网络容易地了解枢轴及其邻接之间的链接关系。在这里插入图片描述
其中xp是枢轴p的特征； Vp表示局部图上的节点集，其特征为{xq | q∈Vp}。
邻接矩阵的生成。我们使用邻接矩阵Ap∈RN * N来表示局部图的拓扑结构。对于一个节点ni∈Vp，我们过滤掉前u个最近的邻接U（ni）。对于节点nj∈U（ni），我们将设置Ap（ni，nj）=1。在我们的论文中，根据经验将超参数u设置为3。
图卷积。在获得特征矩阵X和邻接矩阵A之后，我们使用基于图的关系推理网络基于所建立的图来估计枢轴及其邻接的链接关系。我们在[33，8]中修改结构，我们方法中的图卷积层可以表示为：在这里插入图片描述
其中X（l）∈RN×di，Y（l）∈RN×do，di / do是输入/输出节点特征的维数，N是节点数; G是大小为N*N的对称归一化拉普拉斯算子，运算符⊕表示矩阵级联； W（l）是特定于层的可训练权重矩阵； σ（·）表示非线性激活函数；在这里插入图片描述
是具有增加的自连接的局部图的邻接矩阵； IN是单位矩阵，并且是对角矩阵，其中
。我们的关系推理模型是由ReLU函数激活的一个批处理规范化层和四个图卷积层组成。我们采用softmax交叉熵损失作为优化的目标函数。类似于[33]，我们只在训练中反向传播1-hop邻接上节点的梯度，因为我们只在乎枢轴及其1-hop邻接之间的联系。对于测试，我们也只考虑1-hop节点的分类。
3.5 推理
给定文本组件，我们根据推理结果将文本组件分组为文本实例。我们首先将阈值分别应用于TR和TCR，然后再应用NMS来减少冗余。为了推断枢纽及其相邻之间链接的可能性，我们遍历所有文本组件，构造一个以每个组件为枢纽的局部图形。因此，我们获得了由链接可能性加权的一组边缘。最后，我们使用“呼吸优先搜索”（Breath First Search，BFS）对链接进行聚类和合并。
获得聚类的文本组件后，我们对这些组件进行排序以生成边界。文本实例T可以表示为T = {D0，… Di，…，Dn}。将MinPath算法应用于搜索所有文本组件中心的最短路径，然后通过搜索结果对T进行排序。对于边界生成，我们只需要顺序连接有序文本组件中有序顶部和底部的中点，如图2所示。

4.实验

4.1数据集
Total-Text：它由1255张训练和300张测试的复杂图像组成，包括带有多边形和单词级注释的水平，多向和弯曲文本实例。
CTW-1500：它包含1,000张训练和500张测试图像。每个图像都有弯曲的文本实例，这些实例均由具有14个顶点的多边形进行注释。
MSRA-TD500：它包含500张训练和200张测试图像，包括英语和中文脚本。该数据集专用于检测任意方向的多语言长文本。
ICDAR2015：它由1000张训练图像和500张测试图像组成，包括许多多方向的和非常小规模的文本实例。真值框用单词级四边形注释。
ICDAR2017：它由7200张训练图像，1800张验证图像和9000张测试图像以及9种语言的文本组成，用于多语言场景文本检测。文本实例也用四边形注释。
4.2实施细节
网络的骨干是ImageNet [9]上经过预训练的VGG16 [23]。训练过程主要包括两个步骤：在SynthText数据集上进行我们两个周期的网络预训练，以及在特定基准数据集上进行600个周期的微调。在预训练阶段，我们随机裁剪文本区域，将其调整为512。将批大小设置为12。将使用Adam优化器以10-4的学习率训练模型。在微调中，为了进行多尺度训练，我们随机裁剪文本区域，并将其大小分别调整为640×640（批处理为8），800×800（批处理为4）和960×960（批处理为4）。在微调中，使用SGD优化器来训练我们的模型。初始学习率是0.01，然后每100个周期乘以0.8。此外，还应用了基本的数据增强技术，例如旋转，裁剪，颜色变化和部分翻转。与局部图有关的超参数在训练和测试期间是固定的。实验是在单个GPU（RTX-2080Ti）和PyTorch 1.2.0上执行的。在这里插入图片描述
消融研究
为了验证关系推理网络的有效性，我们在Total-Text，CTW1500和MSRA-TD500上进行了消融实验。表1显示了三个数据集上的实验结果。为了减少数据对实验结果的影响，我们采用SynthText进行预训练模型，然后在Total-Text和CTW1500上进行微调。由于MSRA-TD500由英语和中文组成，因此我们使用ICDAR2017-MLT对我们的网络进行MSRA-TD500的预训练。 Total-Text，CTW1500和MSRA-TD500中图像的长边分别限制为1280，1024和640，同时保持宽高比。如表1所示，在Hmean上，Total-Text，CTW1500和MSRA-TD500的关系推理网络分别实现了1.83％，0.78％和4.27％的改进。值得注意的是，我们使用关系推理网络的方法的召回率在所有数据集中均得到了显着改善（Total Text占3.05％，CTW1500占0.88％，MSRA-TD500占3.78％）。我们的方法一致地提高了在长文本丰富的MSRATD500的检测性能（召回率3.78％，精度4.81％，Hmean 4.27％）。我们的方法在CTW1500上的性能并不出色，因为其注释有时令人困惑。 CTW1500没有“请勿关注”，因此一些小文本和非英语文本均未添加注释，如图6.1所示。此外，文本行注释令人困惑，如图6. 2和3所示。
在这里插入图片描述
与最新技术的比较
多边形类型数据集。在这里，ICDAR2017-MLT用于预训练我们的模型，并且仅分别在CTW1500和Total-Text上进行微调。所有实验都是以单个图像分辨率执行。
Total-Text。该数据集主要包含弯曲的和面向多方向的文本，并在字级上进行注释。在测试中，如果最短边小于512，则将其最短边的大小调整为512，并保持最长边不大于1280。一些可见的结果在图7（a）（b）中列出。从图7中，我们可以看到我们的方法可以精确地检测单词级不规则文本，并且可以准确地分离出任意形状的封闭文本实例。定量结果显示在表2中。所提出的方法Hmean可达到85.73％，明显优于其他方法。在这里插入图片描述

在这里插入图片描述
CTW1500。该数据集主要包含弯曲的和多方向的文本，并在行级别进行注释。在测试中，如果最短边小于512，则将其最短边的大小调整为512，并保持最长边不大于1,024。图7（c）和图6中显示了一些可见的结果。所提出的方法可以正确地正确检测任意形状文本的边界。在标签2中列出了定量结果，与其他最新方法相比，我们的方法在召回率（83.02％）和Hmean（84.45％）达到了理想的效果。具体来说，我们的方法在CTW1500和Total-Text上的性能大大优于TextSnake，分别将Hmean提高了8.85％和6.6％。
四边形类型数据集。为了进行比较，我们采用IC17进行模型预训练，然后分别在IC15和TD500上进行微调。但是，这些数据集是使用矩形框评估的，因此我们需要将检测结果转换为矩形框。因此，我们将文本实例缩小0.05，并采用最小的外接矩形进行评估。
MSRA-TD500。该数据集包含许多长文本，并且文本比例差异很大。在测试中，如果最短边小于512，我们调整最短边为512，并保持最长边不大于640。图7（d）是一些代表性的结果。所提出的方法成功地检测了任意方向和大小的长文本行。表2中列出了与该数据集上其他方法的定量比较。值得注意的是，我们的方法在Hmean上达到85.08％，大大优于其他方法。
ICDARs（IC15，IC17）。考虑到IC15包含许多低分辨率和许多小文本实例。实例平衡[3]用于辅助训练。 IC17包含多语言场景文本，并且注释以单词级别给出。推断而言，我们会适当调整测试图像的大小。对于IC15，如果最短边小于960，我们将最短边的大小调整为960，并保持最长边不大于1960。对于IC17，如果最短边小于512，我们将最短边的大小调整为512，并保持最短边的大小，最长边不大于2048。定量结果列在表4和表3。显然，我们的方法在IC15上达到86.56％的Hmean，在IC17上达到67.31％的Hmean。所提出的方法与最新方法相比具有竞争优势。
在这里插入图片描述
5.结论
在本文中，我们提出了一种新颖的基于CC的任意形状场景文本检测方法。所提出的方法采用基于频谱的图卷积网络来学习文本组件之间的链接关系，并使用该信息来指导后期处理，以将组件正确地连接到文本实例。在五个基准测试上的实验表明，该方法不仅对任意形状的文本都有良好的检测性能，而且对定向和多语言文本也有很好的检测效果。将来，我们对开发具有图形网络的任意形状的文本的端到端文本阅读系统感兴趣。
致谢。这项工作得到了国家重点研发计划（No.2019YFB1405990），北京自然科学基金（No.4194084），中国邮政博士科学基金会（No.2018M641199）和中央大学基础研究基金的支持（编号FRF-TP-18-060A1）。

最后

DDRG的介绍比较少，而且翻译的一般不是很标准为了方便大家学习，这篇是我的一个好朋友帮助翻译的，翻译了两天很辛苦，在这致以敬意，希望大家能喜欢。

葛葛葛立鹏啊

关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
5
评论
DRRG翻译.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

摘要由于场景文本的多样性和复杂性，任意形状文本检测是一项具有挑战性的任务。在本文中，我们提出了一种新颖的统一关系推理图网络用于任意形状的文本检测。在我们的方法中，一个独创的局部图构建了文本建议模型，通过卷积神经网络（CNN）和基于图关系卷积网络的深度关系推理网络（GCN），使我们的网络达到端到端训练。具体来说，每个文本实例都将分成一系列小的矩形组件，小组件的几何属性（例如高度，宽度和方向）将通过文本目标模型进行估算。给定几何属性，局部图构造模型可以大致建立不同文本组件之间的联系，为了进一步的推理并推论组件
复制链接

扫一扫