[论文翻译]MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

最新推荐文章于 2023-05-24 16:56:02 发布

查小小小米

最新推荐文章于 2023-05-24 16:56:02 发布

阅读量972

点赞数 2

分类专栏：论文阅读文字检测识别文章标签：文本检测定位细化多方向特征对齐非极大抑制

本文链接：https://blog.csdn.net/weixin_44403853/article/details/118806669

版权

论文阅读同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

文字检测识别

6 篇文章 0 订阅

订阅专栏

MOST: 一个带有定位细化的多方向文本检测器

摘要

过去几年，场景文本检测领域已有急速进步，现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例。为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量。特别提出了一个TFAM（Text Feature Alignment Module）基于初始原始检测动态地调整特征感受野：一个PA-NMS（Position-Aware Non-Maximum Suppression）模块设计用于有选择性地集中于可靠原始检测并排除不可靠的检测。除此之外，我们提出了一个用于平衡训练的实例级IoU损失来处理不同尺度的文本实例。大量的消融实验证明了提出策略的有效性与优越性。最终的文本检测系统，集成了提出的策略与具有引导意义的场景文本检测器EAST，在各种针对文字检测的标准基准（benchmark）中达到了SOTA或可竞争的表现，同时保证一个较快的运行速度。

1 引言

最近，场景文本阅读已经成为了CV社区中一个活跃的研究热点，因为在广泛应用中的重要价值，比如视频检索，广告牌阅读，和即时翻译，这些需要从自然图片中自动提取文本信息。

受深度神经网络和大量数据的驱动，过去的几年里，场景文字阅读的技术和系统已经发生了巨大的变化，大量的灵感想法被提出。然后，由于现实世界挑战，比如不同的形状，任意的方向，多种尺度以及复杂的照明，严重的模糊和透视失真，当前文本阅读方法仍然有很大的改进空间。

图1 MOST在处理长文本实例时优越性图例。(a)和(b)来自EAST；©和(d)来自MOST。(a)和©显示在文本区域内3个不同位置预测的原始检测框、抽样点对应检测框颜色相同，(b)和(d)时最终检测结果。

尤其，关于场景文字检测，本项工作中我们关注的主题，现存算法可以观察到的明显弱点。比如，EAST，一个非常具有代表性的单级（one-stage）场景文字检测器，已经证实对极端横纵比的文本实例检测不行（如图1(a)(b)）。这有两个主要原因：1）网络的感受野受限，所以不能够足够的信息来精确预测空间扩展的长文本实例。2）在EAST的NMS步骤，检测融合使用它们文本/非文本分类分数作为权重，这就忽视了由网络有限的感受野导致的它们质量差异，最后导致有偏差的几何估计。

为了解决这些问题，我们提出了一个带有定位细化的多方向场景文字检测器（MOST）。定位细化部分包括一个文本特征对齐模块（TFAM）和一个位置感知非极大抑制（PA-NMS）模块。前者将图像特征与粗略检测结果对齐，这可以动态地调整定位预测层地感受野。另一方面，后者根据原始检测被预测的位置自适应地合并原始检测，以集中于准确的预测，同时放弃不准确的预测。更多地，为了改善小文本实例的检测，我们设计了一个实例级的IoU损失，这保证了损失函数中每个实例的权重相同。

实验证明了三个提出策略可以有效地提高检测表现。特别地，它们在MLT17验证集提高了4.0%和9.5%的表现（针对不同的IoU标准），在MTW1测试集上提高了5.1%。并且，我们提出的文本检测器保持了一个简单管道，运行非常快。

本文的贡献有4个方面：

1、我们提出了TFAM，它基于粗略检测动态调整感受野。

2、提出的PA-NMS通过融合基于位置的可信预测，更加改善了检测。

3、我们介绍了实例级IoU损失来平衡不同尺度文本实例的训练。

4、我们提出的MOST达到了在快速推理速度下，SOTA或者可竞争的表现。

2 相关工作

根据不同管道，基于深度学习的现代文本检测器能够大致分为两类：自底向上方法和自上到下方法。

Bottom-up methods把场景文字检测分为两步处理：1）检测基本元素；2）聚合这些元素来产生检测结果。SegLink和它的变体SegLink++把文本实例的微小分割作为基本元素，然后将它们连接在一起来形成边框。TextSnake通过把沿着文本中心线的一系列圆盘当成基本元素进一步提高了自底向上的方法，并解决了任意形态的文本检测问题。CRAFT相反，将文本框认定为基本元素，并使用一个相似分数图来聚合检测字符。PSENet和PAN遵循一个分割管道，定义图片中的每个像素为一个基本元素，并通过宽度优先搜索聚合它们。上述方法在一些基准中都达到了卓越的表现。然而，它们大多数都受到聚集基本元素的复杂后处理算法的影响，这会显著降低效率和推理速度。除此之外，不太强大的聚合基本元素算法可能也会大幅影响准确率，因为如果聚合算法表现不如预期时，一个文本实例可能被分为许多部分。

Top-down methods通常遵循一个普通目标检测管道，并直接输出单词/文本行检测结果。这些方法可以被进一步明确成两子类。One-stage文本检测器如TextBoxes，EAST，TextBoxes++和RRD直接回归整个特征图上的文本边框参数，并使用NMS来产生最终结果。Two-stage文本检测器像Mask TextSpotter系列，正相反，遵循的MaskRCNN类型框架，通过先使用一个区域提案网络（RPN）来产生文本框，再回归对应边框参数。这些方法通常有一个相对简单的后处理算法，可以避免复杂的聚合步骤。

**与LOMO相比。**旨在改进长文本实例的检测，LOMO提出了一个可迭代细化模块（IRM）通过iterative refinement来感知整个长文字。它基于初步提案提取多倍RoI特征，组成一个多级检测器。与LOMO中RoI transform不同的是，我们提出的TEAM通过定制的可变形卷积算子来定位细化，这达到了更高的准确率且更高效（Sec.4）。

3 方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8H9OtOUD-1626424461266)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3ba16a6a-8023-4b6d-a7e5-17445e9ba0c1/Untitled.png)]

图2 网络的整体框架，组成是一个ReasNet-50-FPN骨干网，一个文本/非文本分类头，一个定位分支，和一个位置敏感图预测头。定位分支包含一个粗略定位头，一个文本特征对齐模块，和一个细化定位头。PA-NMS表示位置感知非极大抑制。

MOST的管道如图2所示。它由具有特征金字塔结构的ResNet-50骨干网，一个文本/非文本分类头，一个位置敏感图的预测头一个定位分支，和一个PA-NMS模块。定位分支包括一个粗略定位头，一个文本特征对齐模块（TFAM），和一个细化定位头。

3.1 网络设计

所有预测头的输入（除细化定位头）是一个从特征金字塔骨干网出来的融合特征图，大小为 $\frac H 4×\frac W 4×C$ ，其中 $H$ 和 $W$ 是输入图像的高和宽， $C$ 表示通道数，设为256。在接下来的描述中，Conv，BN，ReLU和Sigmoid分别表示卷积，批量归一化，矫正线性单元和sigmoid函数。

文本/非文本分类头。首先，输入特征图放进Conv（3×3）-BN-ReLU层来减少通道数至64.。然后，Conv（1×1）-Sigmoid层接在其后来生成分数图，分数图大小为 $\frac H 4 ×\frac W 4×1$ ，值的范围为（0，1）。

位置敏感图预测头。位置敏感图预测头与文本/非文本分类头在网络结构上相似，但输出大小不同。位置敏感图的大小为 $\frac H 4 ×\frac W 4 ×4$ ，值在范围（0，1）。这四个通道分别表示在左侧、右侧、上侧和底侧的位置敏感图，如图5。

定位分支、定位分支包括一个粗定位头，一个TFAM，和一个细化检测头。首先，测定为由粗定位头预测。然后，TFAM动态调整基于粗检测的文本特征感受野来产生对齐特征，这被馈送到精细定位头以预测最终检测.

粗检测头和细化定位头共享同样的结构。它们由Conv（3×3）-BN-ReLU层（减少通道数至64）和一个Conv（1×1）层构成。输出几何图的大小为 $\frac H 4×\frac W 4×5$ 。5个通道分别表示到文本矩形框四个边的距离和旋转角度。

3.2 文本特征对齐模块

因为CNN感受野的局限性，对于自顶向下，单级文本检测器像EAST是很难精确定位文本边界的，尤其对于有大尺度或者极端横纵比的文本实例。LOMO提出通过使用RoI变换将图像特征与先前的检测逐步对齐来细化定位环节。然而，这样一个多级网络可能带来繁重的额外计算，尤其当文本实例的数量很多时。

在这里插入图片描述

图3 TEAM描述。在(a)(b)中，紫色的点表示规则采样网格，黄色的点表示变形采样位置。附加偏置（ $\Delta p_n$ 使用浅绿色箭头表示）

为了在快速推理时，达到更好的特征对齐，我们提出了TFAM。TFAM图注见图3。首先，粗检测结果用于产生抽样点。然后，抽样点用于可变形卷积算子来获得细化定位的对齐特征。对齐特征 $y$ 的位置 $p_0$ 可以计算为：

$y(p_0)=\sum_{\mathclap{p_0\in \hat{R}}}\omega(p_n)*x(p_0+p_n+\Delta p_n)$

其中 $x$ 是输入特征图， $\omega$ 是可变形卷积的权重； $\hat{R}$ 是一个规则采样网格， $p_n$ 枚举 $\hat{R}$ 中的位置。一个额外偏置加入其中，定义为 $\Delta p_n$ ，这与抽样点选择策略有关。

基于特征的抽样。基于特征的抽样是一个应用在原始变形卷积层上的抽样点选择策略， $\Delta p_n$ 由先前特征图通过额外卷积层预测得出，如下：

$\Delta p_n = Conv(x(p_0))$

这个抽样方法的图注如图3所示。

基于定位的抽样。与原始变形卷积层中基于特征抽样不同，我们基于定位的抽样使用粗定位头预测的粗略检测信息来分配抽样点。 $\Delta p_n$ 计算如下：

$\Delta p_n = \Gamma (\hat{d_{c0}},p_0)$

其中 $\hat{d_{c0}}$ 表示 $p_0$ 的粗检测框， $\Gamma$ 函数是计算使得粗检测框中采样点平均分布的偏置，如图3(b)。

通过采用基于定位的采样方法，TFAM能产生与粗检测对齐的特征，这能在细化定位头中进一步使用，来产生比粗略检测更加贴近文本区域的细化检测。TFAM采样方法的消融研究在Sec.4.3。

TFAM能产生自适应感受野的特征，其程度由粗检测形状和尺度决定。整个特征对齐的处理由一个定制的可变形卷积层完成，这使得整个操作快速且实施简单。

3.3 位置感知非极大抑制（PA-NMS）

EAST中NMS。EAST提出了位置意识的NMS来融合所有网络预测得到的正检测框。与标准NMS相比，位置意识的NMS能够花费更少的时间，产生更多的稳定结果。工作流程可以分为两步：加权融合和标准NMS。在加权融合的处理中，检测被逐行融合，并且当前遇到的检测框与最后合并的检测框迭代合并。给两个检测框 $p$ 和 $q$ ，以及它们对应的文本/非文本分类分数 $S (p)$ 和 $S (q)$ ，加权融合可被列为如下：

$m_i = (S(p)p_i+S(q)q_i)/S(m),~~i=1,…4\\ S(m)=S(p)+S(q)$

其中 $m_i$ 表示第i个融合框 $m$ 的坐标， $S (m)$ 表示融合框的分数。

在这里插入图片描述

图4 位置感知融合的可视化。(a)中的分数图用来决定正框。(b)和©分别展示了左侧和右侧的位置敏感图。

提出的位置感知NMS。对于所有一个文本区域中的正点，一个点的坐标能够影响它检测框的预测。如图4(a)所示，点越靠近文本边界，越有可能预测一个准确的文本边界位置。因此，如果考虑框位置，可以融合被检测框的更可信且更准确的值（到边界的距离）。

我们提出位置感知NMS，在融合处理中根据框的位置，保留了被检测框的准确部分，同时移除不准确部分，如图4。位置由位置敏感图给出，它坟茔了文本实例中的位置。图5©-(f)展示了左、右、顶、和底部顺序的位置敏感图。这可以用作在融合阶段预测文本实例的左、右、顶、底边界的权重。给两个框 $p$ 和 $q$ （索引为1，2，3，4对应框左上，右上，右下，左下顶点），和位置敏感图以左、右、上、下的顺序，标为 $L$ ， $R$ ， $T$ ，和 $B$ ，位置感知框融合函数可以表示为：

$m_i(x)=(L(p)p_i(x)+L(q)q_i(x))/L(m),i=1,4\\ m_j(x)=(R(p)p_i(x)+R(q)q_i(x))/R(m),i=2,3\\ m_k(x)=(T(p)p_i(x)+T(q)q_i(x))/T(m),i=1,2\\ m_l(x)=(B(p)p_i(x)+B(q)q_i(x))/B(m),i=3,4\\ \phi (m)=\phi (p)+\phi (q),~~\phi \in (L,R,T,B)$

其中 $m$ 是融合框， $m_i(x)$ 和 $m_k(y)$ 是框 $m$ 第 $i$ 和第 $k$ 个顶点的 $x$ ， $y$ 坐标（ $p$ 和 $q$ 也是这样）， $L (p)$ 表示对应于框 $p$ 位置的左侧敏感图中的值（ $R$ 、 $T$ 和 $B$ 是如此， $q$ 和 $m$ 也是如此）。

如上公式所表示，PA-NMS使用相应的位置感知分数，而不是文本/非文本分类分数，作为位置感知融合步骤的框权重，这可以帮助更精确地定位文本边界。

3.4 标签生成

我们遵循EAST中同样的处理来生成分数图和几何图。生成位置敏感图的步骤已经注释在本章节。

对于每个文本实例，位置敏感图中文本区域的确切正位置 $i$ 的值如下表示：

$F(i)=\begin{cases} 1-\frac{Dist(i,f)-min(D_f} {d_f-min(D_f)},~if~Dist(i,f)<d_f\\ 0,~~~~~~~~~~~Otherwise \end{cases} \\ d_f = \alpha *(max(D_f)-min(D_f))+min(D_f)\\ D_f = \{Dist(i,f)|i\in P\}$

其中 $f$ 表示一个文本区域的四个边框之一， $F$ 表示其相对应的位置敏感图，e.g.右边对应右敏感图。 $P$ 表示文本实例中的所有正样本。 $D i s t (i, f)$ 计算点 $i$ 到边 $f$ 的距离。 $d_f$ 是距离阈值：如果 $Dist(i,f)>d_f$ ，点 $i$ 在位置敏感图中的对应值为0。实验中 $\alpha$ 设为0.75。位置敏感图的可视化如图5。
在这里插入图片描述
图5 位置敏感图的GT可视化。(a)输入图像。(b)分数图。©，(d)，(e)和(f)分别是左、右、上、下顺序的位置敏感图。

3.5 实例级IoU损失

EAST中的IoU损失用来计算几何预测的回归损失。对于每个正样本，IoU损耗都是尺度不变的。然而，如图5(b)所示，大文本区域包含的正样本远多于小文本区域，这使得回归损失偏向于大型长文本实例。IoU损失计算如下：

$L_{IoU} = -\frac 1 {|\Omega|}\sum_{\mathclap i \in \Omega}logIoU(\hat{d_i}, d_i^*)$

其中， $\hat{d_i}$ 和 $d_i^*$ 表示第 $i$ 个样本的几何预测，以及它对应的GT。 $\Omega$ 表示正样本集合， $|\Omega|$ 是 $\Omega$ 中样本数量。

对于一个更平衡的不同尺度训练文本实例，我们提出了Instance-wise IoU loss：

$L_{ins-IoU}=-\frac 1 {N_t}\sum_{\mathclap 1≤j≤N_t}\frac 1 {|S_j|}\sum_{\mathclap k \in S_j}logIoU(\hat{d_{jk}},d_{jk}^*)$

其中 $\hat{d_{jk}}$ 和 $d_{jk}^*$ 表示第 $k$ 个样本在第 $j$ 个文本实例中的集合预测，以及其对应的GT。 $S_j$ 表示属于第 $j$ 个文本实例的正样本集合， $N_t$ 是文本实例的总数。

如公式8所示，每个正样本的损失被其属于的文本实例的正样本数所归一化。所以每个文本实例，不管有多少正样本，对能对整个实例级IoU损失做出相等的贡献。

3.6 优化

我们网络的损失如下计算：

$L=L_x+\lambda_{gc}L_{gc}+\lambda _{gr}L_{gr}+\lambda _pL_p$

其中 $L_s$ ， $L_{gc}$ ， $L_{gr}$ 和 $L_p$ 分别表示分数图的损失，粗定位头预测的几何图的损失，细定位头预测的几何图的损失，以及位置敏感图的损失。 $\lambda_{gc}$ ， $\lambda_{gr}$ 和 $\lambda_p$ 平衡4个损失的重要性，实验中，均设为1。

值得注意的是，我们仅计算正样本集合的 $L_{gc}$ ， $L_{gr}$ 和 $L_p$ ，标记为 $\Omega$ 。

Loss for Score Map— $L_s$ 。我们使用二元交叉熵损失作为分数图预测的目标函数，用 $L_s$ 表示。 $L_s$ 采用OHEM ，其中负和正的比率设定为3：1。

.Loss for Geometry Maps— $L_{gx}$ 、旋转角度的损失计算如下：

$L_\theta=\frac 1 {|\Omega|}\sum _{\mathclap i \in \Omega}1-cos(\hat{\theta_i}-\theta_i^*)$

其中 $\hat{\theta_i}$ 和 $\theta_i^*$ 表示 $\Omega$ 中第 $i$ 个样本旋转角度的预测，和其对应的GT。

$L_{gc}$ ， $L_{gr}$ 与 $L_g$ 有相同的形式，都是 $L_{IoU}$ ， $L_{ins-IoU}$ ，和 $L_\theta$ 的组合：

$L_g=L_{IoU}+\lambda_iL_{ins-IoU}+\lambda_\theta L_\theta$

$L_{IoU}$ 和 $L_{ins-IoU}$ 的损失函数分别如公式7和8。 $\lambda_i$ 和 $\lambda_\theta$ 用来平衡3个损失，实验中分别设置为1和20。

Loss for Position-sensitive Maps。 $L_p$ 采用平滑L1损失。

$L_p = \frac 1 {4|\Omega|}\sum_{\mathclap {i \in \Omega}}~~~~~~\sum_{\mathclap {\Psi \in \{L,R,T,B\}}}SmoothedL1(\hat{\Psi_i}-\Psi_i^*)$

其中 $\hat{\Psi_i}$ 和 $\Psi_i^*$ 表示 $\Omega$ 中第 $i$ 个样本的位置敏感图 $\Psi$ ，以及它们对应的GT。

4 实验

首先，我们简要介绍实验中使用的所有数据集。然后，上述方法的实施详情。第三，展示提出贡献的消融研究，最后，我们在四个基准数据上与SOTA方法作了比较。

4.1 数据集

SynthText是一个包含了800k图像的合成数据集，由一个合成图像生成机器生成。该数据仅用于预训练。

**ICDAR 2017 MLT（MLT17）**是多语种场景文字检测ICDAR2017比赛中提出的数据集。包含7200张训练图，1800张验证图，和9000张测试图。该数据集的文本实例有9种不同语言。

MTWI是多类型网络图像的灵活阅读比赛ICPR2018提出的数据集，包括1w张训练，1w张测试。文本主要是中英文，所有实例均为行标注。

**ICDAR 2015（IC15）**是灵活阅读比赛ICDAR2015中出现的。数据集为四边形单词级标注，包含1k张训练图，500张测试。

MSRA-TD500是多语种数据集，包含中英文。数据集图像由袖珍相机从室内和室外场景拍摄。分为300训练，200测试。遵循以往工作，额外添加HUST-TR400的400张训练数据。

4.2 实施详情

我们采用待用特征金字塔结构的ResNet-50骨干网。在预训练阶段，在SynthText训练2个epochs，使用Adam优化器， $lr=10^{-4}$ 。SGD优化器用在每个数据集的训练集来微调预训练模型。接下来，我们使用“poly”学习速率政策。初始 $l r = 0.005$ ， $p o w e r = 0.9$ 。MLT17，MTWI，IC15，MSRA-TD500的微调epochs的数量分别为300，300，1200，和1200.对于所有的数据集，训练batch_size = 16。对于数据增强，文本区域随机裁剪，并resize到640×640。另外，一些常见的数据增强技术，比如翻转，旋转，和颜色变化都用在训练中。模型基于Pytorch框架，并使用2个Tesla V100 GPUS训练。

.4.3. 消融研究-4.5多语种长文本检测

。。。。略

5 结论

本文中，我们提出了一系列策略来解决场景文本检测现存算法的主要缺点：极端长文本实例的不准确集合预测，处理极大尺寸变化的缺点。综合实验已经证明提出方法以一种原则性方式使这些问题解决，并在此领域的标准数据集上表现比以往SOTA更加出色。并且，值得注意的是，提出的策略实际上非常普通，所以可以容易地扩展到许多其他单阶段文本检测方法。我们愿意将此作为未来研究。

查小小小米

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
[论文翻译]MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

MOST: 一个带有定位细化的多方向文本检测器摘要过去几年，场景文本检测领域已有急速进步，现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例。为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量。特别提出了一个TFAM（Text Feature Alignment Module）基于初始原始检测动态地调整特征感受野：一个PA-NMS（Position-Aware Non-Maximu
复制链接

扫一扫

专栏目录