Marior去除边距和迭代内容矫正用于自然文档矫正

本文链接：https://blog.csdn.net/weixin_sjk6070/article/details/130426022

本文介绍了一种名为Marior的新方法，用于处理和矫正带有各种边缘情况的文档图像。Marior包括边缘去除模块（MRM）和迭代内容修正模块（ICRM），通过这两个模块的级联操作，逐步提高图像的去变形质量和可读性。MRM首先预测并移除图像边缘，ICRM则通过预测密集位移流进行内容感知的校正。实验表明，Marior在公共基准上表现出最先进的性能，尤其在处理大边缘区域和无边缘区域的文档图像时效果显著。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简要介绍
在这里插入图片描述

本文简要介绍了论文“ Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild ”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降，对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而，这可能不足以克服实际挑战，包括具有大边缘区域或没有边缘区域的文档图像。由于这种不切实际，用户在遇到大型边缘区域时难以精确地裁剪文档。同时，无边缘的变形图像仍然是一个难以解决的问题。据作者所知，目前还没有完整有效的pipeline来纠正文档图像。为了解决这个问题，作者提出了一种新的方法，称为Marior（边缘去除和迭代内容修正）。Marior采用渐进策略，以从粗到细的方式迭代地提高去变形质量和可读性。具体来说，作者将pipeline划分为两个模块：边缘去除模块（MRM）和迭代内容校正模块（ICRM）。首先，作者预测输入图像的分割掩膜去除边缘，从而得到初步结果。然后，作者通过产生密集的位移流来进一步细化图像，以实现内容感知的校正。作者自适应地确定细化迭代的次数。实验证明了作者的方法在公共基准上的最新性能。

二、研究背景
借助移动设备中先进的内置摄像头，将日常生活中无处不在的文档数字化已经为人们变得方便。但是，由于相机的角度和位置不合适，所捕获的文档图像通常包含透视变形。此外，文档本身也可能因弯曲、折叠或折痕而发生几何变形。这些类型的变形导致了光学字符识别（OCR）系统的性能下降，并导致读者的可读性较差。

最近的基于深度学习的去变形方法在对各种文档布局的鲁棒性方面取得了很大的进展。但是，它们几乎都只关注精确裁剪的文档图像，而忽略了边缘区域较大或没有边缘区域的情况，分别如图1 (a)和(b)所示。在本研究中，边缘区域是指由不属于感兴趣的文档的像素组成的区域。为了解决这个问题，作者可以在培训过程中考虑到所有这些情况，但作者发现结果不令人满意（参考补充材料）。作者认为，这归因于额外的内隐学习来识别前景文档和去除边缘区域。另一种方法是在去变形之前实现现有的目标检测算法，以避免需要手工裁剪。然而，没有带边缘的文档图像仍然是一个未解决的问题。因此，仍然没有完整和有效的pipeline来处理自然的所有情况。

因此，作者提出了==Marior（边际去除和迭代内容修正）来解决这个问题，该模块由两个级联模块组成：边缘去除模块（MRM）和迭代内容修正模块（ICRM）。Marior使边缘去除和文件整改过程解耦。具体来说，在MRM中，作者首先将源失真图像输入作者的掩膜预测网络，该网络预测相应的文档分割掩膜。在此基础上，作者提出了一种基于掩膜的去变形器（MBD）==来去除基于该掩膜的边缘，并得到了初步的变形结果。对于没有边缘区域和没有完整文档边缘的图像，如图1 (b)所示，作者建议使用基于IoU的方法将它们过滤掉并跳过边缘去除过程，这一灵感来自于观察到这些图像通常会导致噪声掩膜。

之后，作者将MRM中去掉边缘的输出输入ICRM以进行进一步细化。它预测了一个密集的位移流，该流为输入图像中的每个像素分配了一个二维（2D）偏移向量。根据该流进行校正后，作者得到了一个去变形的输出图像。因为删除了边缘的图像更多关注内容（例如，文本行和图形），所以ICRM能够感知内容。因此，作者进一步设计了一种新的内容感知损失，以隐式地指导ICRM更多地关注信息区域，如文本线和图形，而不是统一的文档背景。这种设计基于一种直觉，后者包含更少的变形线索，对变形结果的轻微偏差在视觉上可以忽略不计。此外，作者还发现，ICRM的迭代实现可以提高整改性能。为此，作者提出了一种自适应的方法来确定迭代次数，以使所提出的迭代ICRM过程更加智能和高效。

综上所述，作者的贡献如下：
作者提出了一种新的方法Marior来处理具有各种边缘情况的文档图像，这些情况被现有的基于学习的方法忽略了。在作者的边缘去除模块（MRM）中提出了一种新的基于掩膜的存储器，该模块基于预测的分割掩膜对文档图像进行粗破坏。然后提出了一个迭代内容整正模块（ICRM），通过预测密集位移流来进一步细化图像。
作者设计了一种新的内容感知损失，以隐式地引导流预测网络更多地关注信息区域。作者还提出了一种自适应迭代策略来提高性能。
广泛的实验表明，所提出的Marior在两个广泛使用的公共基准上取得了最先进的性能。此外，这种方法在处理具有不同边缘的困难情况也取得了重大成功。

三、方法介绍
如图2所示，Marior包含两个级联的MBD和ICRM模块，这些模块逐步修正变形的源图像 $I_s$ ，并输出最终的去变形图像 $I_{fd}$ 。在MRM中，作者首先根据预测的掩膜去除边缘，得到一个初步的去变形结果 $I_{pd}$ 。这种基于掩膜的去变形过程是通过一种新的MBD来实现的。然后ICRM以作为输入 $I_{pd}$ ，预测与 $I_{pd}$ 具有相同分辨率的密集位移流。这个二维流分配了 $I_pd$ 中每个像素应该移动的距离，以获得 $I_{fd}$ 。基于这个位移流，作者从 $I_{pd}$ 中取样 $I_{fd}$ 。为了获得更好的修正性能，作者迭代实现了ICRM，提出了一种自适应的方法来确定迭代次数

3.1边缘去除模块（MRM）

掩膜预测。为了从给定的图像中删除边缘，作者首先要定位文档区域。作者认为定位是一个语义分割任务，其目的是产生一个精确表示文档区域的掩膜。作者的掩膜预测网络的体系结构如图3(a)所示，直接采用了DeepLabv3+ 中的编码器和解码器。除了文档掩膜外，作者还设计了一个头部来产生一个用于辅助训练的边缘掩膜。此外，作者观察到文档掩膜具有一个独特的和相对固定的模式，如相对直的边、一个较大的连接区域和一个接近四边形的形状。如图3 (a)所示，作者使用GAN框架将这些先验知识应用到MRM中。作者发现这可以有效地降低所产生的掩膜上的噪声，如图3 (b)。所示该目标被定义为:

)在这里插入图片描述
$L_{mask}$ 和 $L_{edge}$