论文《Densecut：用于实时抓取切割的密集连接CRF》学习

本文链接：https://blog.csdn.net/weixin_44470443/article/details/103880372

提出DenseCut，一种利用全连通条件随机场(CRF)的高效图像分割技术，实现实时高质量分割，速度比竞争对手快10倍，精度高达95.9%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《DenseCut: Densely Connected CRFs for Realtime GrabCut》
（2015 SCI 二区）

摘要： 在过去的十年中，从边界框输入中自动或手动进行地物分割已经非常流行，并影响到各种应用。大量的研究都集中在高质量的分割上，使用复杂的公式往往会导致技术缓慢，并且常常妨碍实际应用。在本文中，我们展示了一种非常快速的分割技术，仍然可以获得非常高质量的结果。我们建议用密集连接的CRF代替传统GrabCut公式中耗时的全局颜色模型迭代求精。为了激发这个决定，我们展示了一个密集的CRF隐式地为前景和背景建模未规格化的全局颜色模型。这种关系为在致密CRF和地堑功能之间架起桥梁提供了深刻的分析。我们使用两个著名的基准来广泛地评估我们的算法。实验结果表明，与最接近的竞争对手相比，该算法具有一个数量级(10×)的加速，同时具有较高的精度。

类别和主题描述符（根据ACM-CCS）： 分割区域生长、分割

1. 介绍

在过去的十年中，自动[CLZ13，CZM11，CMHH14]或手动[RKB04]提供的边界框输入的地物图像分割非常流行，并影响到各种计算机视觉和计算机图形学应用，包括图像编辑[LHE07，CZM10]、目标检测[SBC05]，图像分类[WCM05]、照片合成[CCT09，CTM13]、场景理解[KT09]、自动对象类发现[ZWW*12]和细粒度分类[CLZ13]。为了获得高质量的结果，最近的方法侧重于复杂的配方[VKR09，LKRS09，TGVB13]，这通常会导致缓慢的技术。

在这项工作中，我们的目标是设计一个非常快速的图形-背景图像分割技术，仍然取得高质量的结果。我们观察到一个密集的CRF隐式地模拟了一个非标准化的全局颜色模型，这与著名的GrabCut函数[RKB04]中使用的模型相似。我们的经验表明，“非正常化”在实践中并不重要。此外，据我们所知，我们是第一个在密集crf和GrabCut函数之间建立密切关系的人。令人惊讶的是，这一点并未引起计算机视觉界的注意，但我们认为，这是一个有趣的结果，它将分割的两个研究方向结合起来，为基于平均场的方法的成功提供了更深入的见解。考虑到这种关系，我们可以优化一个紧密连接的CRF，对于这个CRF，最近已经开发了非常有效的推理技术[KKII]，而不是像[RKB04]那样运行一个缓慢的、迭代的全局颜色模型精化，或者甚至是来自[VKR09]的较慢的技术。
在这里插入图片描述
如图1所示，我们的算法能够实时产生高质量的地物分割结果。为了对我们的方法与其他替代方法进行定量评估，我们遵循GrabCut分割[TGVB13]的最新进展，在两个标准基准上对我们的方法进行了广泛的评估，GrabCut数据集[RKB04]和MSRA 1K数据集[AHES09]分别包含50和1000个图像，具有相应的二进制分割掩码。我们的公式在GRABCUT数据集[RKB04]和MSRA 1K数据集[AHES09]上分别达到了 $F_β=93.2\%$ 和 $F_β=95.9\%$ ，其中Fβ表示精度和召回率的调和平均值。除了生成更好的分段外，我们的方法还实现了实时CPU处理，其速度大约比最接近的竞争对手[TGVB13]快10倍。

2. 相关工作

在这里，我们回顾了执行交互式图形地面分割的相关工作[BJ01，RKBB11]。在多年来提出的许多不同的方法中，最成功的技术结合了每像素外观模型和成对一致性约束[BRB*04]，并使用图割实现高效的能量最小化[BK04]。

Rother等人[RKB04]提出了第一个基于包围盒的分割系统，该系统使用从给定包围盒计算的初始外观模型优化外观模型和分割。Vicente等人展示了这一点。[VKR09]通过将全局出现参数最大化，可以将闭合GRAPECH能量泛函[RKB04]作为高阶MRF重新定义。这可以通过将GMM转换为外观模型的直方图表示来实现。然而，高阶MRF的优化是NP困难的。然而，所提出的对偶分解技术能够在约60%的情况下达到全局最优。

最近，Tang等人的一篇文章[TGVB13]也得出了类似的公式。然而，他们认为，高阶MRF中使问题NP困难的部分，即“体积正则化项”，在实际应用中是不相关的。因此，他们用一个简单的一元术语代替这个术语，这个术语更倾向于前景而不是背景，并且可以保证全局最优解。有趣的是，在抽象层面上，我们的论文具有相同的推理方式。我们证明了GRAPECH函数和密集连接的CRF公式在某些近似下是相同的。然后，我们论证，实验证明，这种近似在实践中并不重要。基于训练的分割方法，例如“Boxsup”[DHS15]和“CRF-as-RCNN”[ZJRP15]，最近变得相当流行。这些方法利用经过精心训练的深层神经网络[JSD14，SZ15，LSD14]进行高质量的语义分割。虽然这些方法适合于离线分割，但计算量大，不适合于实时交互应用。

3.方法

我们将地物分割问题描述为二值标号条件随机场（CRF）问题。CRF是马尔可夫随机场（MRF）的一种形式，它直接定义了后验概率，即给定输入数据的输出变量的概率[BKR11]。CRF是在随机变量X={X 1，X 2，…，X n}上定义的，其中每个X i∈{0,1}，0表示背景，1表示前景，表示像素i∈n={1,2，…，n}的二进制标签，使得每个随机变量对应一个像素。我们用x表示这些随机变量的联合配置，I表示观察到的图像数据。根据[KK11]中的一般公式，完全连接的二进制标签CRF可以定义为：
在这里插入图片描述

3.1、一元项评估

一元项 $ψ_i (x_ i)$ 措施的成本分配一个二进制标签 $x_i$ 的像素 $i$ ,定义为,
在这里插入图片描述
可以通过在标签分配Xi上产生分布的分类器来独立计算每个像素。在[LSTS04，PMC10]之后，我们使用

3.2、完全连通两两项

两两项 $ψ_{ij}$ 鼓励类似和附近的像素标签一致。我们使用一个对比敏感的三核项:
在这里插入图片描述
其中，真条件Iverson括号[·]为1，否则为0，相似度函数Eq(4)由颜色向量 $I_i、I_j$ 和位置值 $p_i、p_j$ 定义:

在这里，Eq.(5)对外观相似度进行建模，并鼓励颜色相似的相邻像素使用相同的二进制标签。式(6)有利于平滑，有助于去除小的孤立区域。贴近度、相似度和平滑度由 $θ_α、θ_β、θ_γ和θ_μ$ 控制。直观地说，如果项式（5）管理长程连接，项式（6）测量局部光滑，则 $θα\gg θγ$ 应满足。在本文的所有实验中，我们使用经验值 $w_ 1=6，w_2=10，w_3=2，θ_α=20，θ_β=33，θ_γ=3和θ_μ=43$ 。

3.3、实现

颜色建模：GMMs与直方图。 有效的颜色建模对于良好的分割效果非常重要。在文献中提出的许多不同模型中，最流行的两种是直方图[BJ01]和高斯混合模型[BRB*04，RKB04]。最近一些重要的工作使用直方图[TGVB13，VKR09]表示。

在[VKR09]中，作者认为GMM模型的地图估计实际上是一个不适定问题，因为将高斯函数与单个像素的颜色进行拟合可能产生无限的可能性(见Bis06)。正如[RKBB11]中所解释的，这可以通过在协方差矩阵中添加一个小常数来避免。与直方图相比，GMMs能够更好地适应图像的颜色，同时仍然能够有效地捕捉前景和背景之间的微小外观差异。此外，直方图表示将对不同的颜色一视同仁，忽略直方图箱的颜色值，例如香蕉的两个像素可能有轻微的颜色差异，被量化到不同的箱中，即使它们与背景不同，通常有更大的色差。我们在第5.1节中通过大量的评估，通过实验验证了上述讨论。

高效的GMM估计。 在OpenCV [B 00, BK08]和Nvidia CUDA实现[NVI14]中，由于用于训练GMMs的大量数据样本(像素)，典型的GMM估计在计算上是昂贵的。在突出的对象检测领域，最近开发了更有效的GMM估计方法[CWL 13]。使用基于中间直方图的表示使估计更加有效。由于自然图像通常覆盖所有可能颜色的非常小的一部分，因此统一量化图像颜色（例如，将每个通道分成12部分），然后选择最频繁的颜色箱，直到覆盖95%的图像像素，典型的结果是一个小的直方图（例如，MSRA 1K数据集[AHES09]基准中平均报告了85个直方图箱[CZM11，CMH15]。我们不需要使用数十万个图像像素来训练GMM，而是可以使用少量的直方图作为加权样本来训练颜色GMM，从而实现有效的GMM估计。

高效的CRF推理。 我们的CRF公式满足具有高斯边缘势的完全连通两两CRF的一般形式[KK11]。这使我们能够使用高效的高斯滤波[ABD10]来执行平均域框架中的消息传递。而不是计算准确的Gibbs分布:
在这里插入图片描述

上述方程对所有图像像素的朴素估计具有较高的计算复杂度，是像素个数的平方。我们可以改写式(9)的最后一项，通过先加后减 $Q_i(l')$ 得到

四、全连通CRF与GrabCut功能的关系

在许多地物分割方法中，如GrabCut[RKB04]，明确使用了两种（前景和背景）全局颜色模型。每个颜色模型都是从其各自的区域标签派生出来的。像素标记和全局颜色模型之间的这种耦合导致了非常具有挑战性的优化，因为这两个部分都需要联合推断。在GrabCut中，这是以迭代的方式完成的，而[VKR09]使用双重分解。然而，迭代优化和双重分解优化都很慢，后者每帧最多需要几分钟。

在这项工作中，我们用一个完全连接的CRF的单一优化来代替全局颜色模型。这是基于洞察力，一个完全连接的CRF和一个标准的低连接（例如，8连接）CRF与相关的前景和背景全局颜色模型是非常密切的重新，在某种意义上说，前者是后者的近似。当最终区域和背景区域的面积在最终分割中相同时，这种近似基本上是精确的。在下文中，我们还绘制一个切割[TGVB13]工作的关系，因为在他们的工作和我们的近似是相关的。

这一观察结果表明，我们可以避免全局颜色模型估计的比较昂贵的过程，并使用全连通CRF的有效推理来实现非常快的计算。

让我们考虑一个完全连接的CRF的特定形式，其中w2=0。注意，这只是能量方程(1)的一个小变化，因为空间平滑项仍然存在于g1中。能量是
在这里插入图片描述
现在让我们写出[RKB04]中给出的Grabcut函数

如果将这个方程与Eq.(5)进行比较，那么第一个区别就是像素距离的“log”操作符。第二个区别是我们有一个8邻域系统而不是一个完全连通的系统。然而,通过选择 $θ_α$ 并相应地 $θ_β$ 近似。

现在让我们定义一个版本的GrabCut，稍微修改一下边缘保持平滑
在这里插入图片描述
GrabCut函数和全连通CRF的唯一区别是Eq.(11)中的g3项和Eq.(15)中负对数概率的和。

我们定义下面的函数来计算颜色之间的差异，这里是 $I _i$ ，这里是颜色的分布，这里是背景区域的所有颜色:
在这里插入图片描述
我们现在可以陈述下面的定理，它将Eq.(15)中的GrabCut函数与我们在Eq.(11)中的全连通CRF联系起来。

如果比率接近1，则意味着它更接近于适当的密度估计。选择输入框外的矩形图像区域作为构建CRF的工作区域，可以大致控制这个比例。在我们的实验中，我们选择比边界框输入宽的wb=5像素区域作为工作区域，这将分别为MSRA1000和GRABCUT基准生成1.5和1.2的平均比率。实验发现，在较大范围内改变 $w_b$ ，如[2,10]，对算法性能有着不可忽视的影响。值得注意的是，这一讨论与一篇文章[TGVB13]中的论证主线有关。在一次剪切[TGVB13]中，作者用一个简单的膨胀力（一元项）替换“体积正则化项”，重新编写了GrabCut函数，该膨胀力倾向于所有像素都是前景。这种变化使得新的GrabCut函数的全局优化成为可能。
在这里插入图片描述

6. 结论

提出了一种高效的图形-背景图像分割方法，利用全连通CRF对图像进行有效的一致性建模。正式地，我们展示了一个完全连接的CRF，如在这项工作中所使用的，和众所周知的GrabCut功能，与一个低连接，如8-连接，CRF与相关的前景和背景全局颜色模型密切相关。这促使我们用一个完全连通的CRF的单一优化来代替传统GrabCut框架中的全局颜色模型。对MSRA 1K数据集[AHES09]和GRABCUT数据集[RKB04]这两个著名基准的广泛评估表明，与其他最新的替代方法相比，我们的方法能够获得更精确的分割结果，同时相对于最接近的竞争对手达到一个数量级的速度。

进一步引入一个边界框之前[LKRS09]，或其他CPU高阶项[VWT12]可能是有用的未来补充到我们的框架。

为了鼓励未来的工作，我们在项目页面提供源代码、相关方法的链接和现场讨论:
http://mmcheng.net/densecut/.