【文献阅读】Learning to detect natural image boundaries using local brightness, color, and texture cues

李耀日

已于 2023-05-10 11:45:59 修改

阅读量328

点赞数 1

文章标签：计算机视觉人工智能

于 2023-04-10 09:55:01 首次发布

文章目录

摘要

这项工作的目标是使用局部图像测量准确地检测和定位自然场景中的边界。我们制定了响应与自然边界相关的亮度、颜色和纹理的特征变化的特征。为了以最优的方式组合来自这些特征的信息，我们使用人类标记的图像作为ground truth来训练分类器。该分类器的输出提供了每个图像位置和方向上边界的后验概率(the posterior probability)。我们展示的精度-召回曲线表明，所产生的检测器明显优于现有的方法。我们的两个主要结果是：1)线索组合可以通过简单的线性模型充分执行；2)需要对纹理进行适当的、明确的处理来检测自然图像中的边界。
David R. Martin, Member, IEEE, Charless C. Fowlkes, and Jitendra Malik, Member, IEEE

1 引言

考虑图 1 中所示的图像和人工标记的边界。我们如何自动找到这些边界？
图1.示例图像和人工标记的段边界。每张图像显示了多个(4-8)人类分割。像素越暗，越有人类标记出边界。关于如何收集这些标准数据(ground-truth)的细节将在第3节中讨论。
我们将边界检测问题与经典的边缘检测问题区分开来。边界是图像平面中的轮廓线，它表示像素所有权从一个物体或表面到另一个物体或表面的变化。相比之下，边缘通常被定义为某些低级图像特征（例如亮度或颜色）的突然变化。因此，边缘检测是一种较低层次的边界检测技术。 另一种方法是识别场景中的对象并使用该高级信息来推断边界位置。
在本文中，我们关注的是像图2的第一列所示的局部图像补丁中可用的信息。虽然这些补丁缺乏全局上下文，但对于人类观察者来说，哪些包含边界，哪些没有边界是很清楚的。我们的目标是使用从这样的图像补丁中提取的特征来估计边界穿过中心点的后验概率。基于这种局部信息的边界模型可能是任何处理自然图像的感知组织算法不可或缺的一部分，无论是基于将像素分组到区域[1]，[2]，还是将边缘片段分组到轮廓[3]，[4]。本文有意不确定如何在系统中使用局部边界模型来执行高级视觉任务(如识别)。
在这里插入图片描述
图2. 局部图像特征。在每行中，第一组显示一个图像块。下面的组展示了图像块的水平直径的特征描述。特征为原始图像强度(intensity)、定向能量OE(oriented energy)、亮度梯度BG(brightness gradient)、颜色梯度CG(color gradient)、原始纹理梯度(texture gradient)TG和局部纹理梯度 $\widehat{TG}$ 。每个描述中的垂直线标记图像块中心。每个特征的比例被选择来最大化训练图像集上的性能——OE、CG和TG占图像对角线(5.7像素)的2%，BG占图像对角线(3像素)的1%。挑战在于将这些特征结合起来以检测和定位边界。
局部边界检测最常见的方法是寻找图像亮度中的不连续点。例如，Canny检测器[5]将边界建模为亮度台阶边缘。图2第二列中的亮度分布表明，对于纹理普遍存在的自然图像的边界，这是一个不够好的模型。Canny检测器在存在高对比度边缘但不存在边界的纹理区域内很容易被激发。此外，当图像平均亮度只有微小变化时，它无法检测纹理区域之间的边界。
部分解决方案是通过检查像素周围多个方向上的梯度来提供的。例如，基于空间平均二阶矩阵特征谱的边界检测器可以将简单边缘与可能在纹理内部发生的多个入射边缘区分开。尽管此方法将在有限的纹理类别中抑制假阳，但它也会抑制边缘纹理区域的角和轮廓。
简单亮度边缘模型的重大问题促使研究人员开发更复杂的检测器，以寻找由纹理变化定义的边界，例如[6]，[7]。虽然这些在合成Brodatz马赛克提供的纯纹理-纹理边界上工作得很好，但在简单亮度边界附近有问题。跨越边界的局部窗口上计算的纹理描述符与包含在相邻区域中的任何一个窗口具有不同的统计信息。这不可避免地导致沿轮廓出现双重检测边界或薄晕状区域(例如，见[6]，[8]，[9]中的图像)。正如亮度边缘模型不能检测纹理边界一样，纯纹理模型也不能有效地检测亮度边缘。
显然，自然图像中的边界可以通过包括亮度、颜色和纹理在内的几个线索的联合变化来标记。来自心理物理学[10]的证据表明，人类结合使用多种线索来提高他们对边界的检测和定位。计算视觉在处理线索组合难题方面的研究有限。例如，[2]的作者将纹理度量与图像中的每个点相关联，以抑制纹理区域的轮廓处理，反之亦然。然而，他们的解决方案充满了特别的设计决策和手工选择的参数。
在本文中，我们通过将任务构造为监督学习问题，为线索组合提供了一种更有原则的方法。由多个人类被试者手工分割的大型自然图像数据集[11]为每个像素提供了边界上或边界外的真实值标签。然后，任务是根据局部图像特征的某一组对像素在边界上的概率进行建模。这种学习和评估边界检测器的定量方法类似于Konishi等人的工作，他们使用了英国乡村场景的Sowerby数据集。我们的工作以 明确的纹理 处理而闻名，在更多样化的自然图像集合上具有卓越的性能。
通过对纹理建模并以统计上最优的方式组合各种局部线索，我们证明了边界检测技术在现有水平上的显著改进。图3显示了我们的检测器与Canny检测器(Konishi等人使用的基于二阶矩矩阵的检测器[12])和人类受试者的性能比较。本文的其余部分将介绍如何实现这一改进。在第2节中，我们描述了用作算法输入的局部亮度、颜色和纹理特征。在第3节中，我们介绍了我们的训练和测试方法以及提供地面真相数据的12,000个人类分割的数据集。我们在第4节中应用了这种方法来独立优化每个局部特征，并在第5节中执行线索组合。第6节介绍了我们的方法与现有边界检测方法的定量比较。我们在第7节中得出结论。
在这里插入图片描述
图3. 二十年的边界检测。与经典边界检测方法和人类被试者的性能相比，我们的边界检测器的性能。给出了5种边界检测器的精度-召回曲线:1)高斯微分算子(GD)， 2)带滞后阈值的高斯微分算子(GD+H)， Canny检测器，3)基于二阶矩阵的检测器(2MM)， 4)结合亮度和纹理的灰度检测器(BG+TG)，以及5)结合亮度、颜色和纹理的颜色检测器(BG+CG+TG)。每个探测器都由其精度-召回曲线表示，该曲线测量随着检测器阈值的变化，准确度和噪声之间的权衡。标题中显示的是每条曲线的F测度，取值范围从0到1。F测度是精度-召回曲线的汇总统计量。图上用“+”标记的点显示了与其他人类相比，每个标准答案人类分割的精度和召回率。人类被试者的F值中位数为0.80。实体曲线显示了F=0.80曲线，代表了人类在这项任务中的表现的前沿。

2 图像特征

我们的边界检测方法是在一定的方向和尺度范围内，在几个特征通道中查看每个像素的局部不连续。我们将考虑两个亮度特征(定向能量和亮度梯度)，一个颜色特征(颜色梯度)和一个纹理特征(纹理梯度)。这些特征中的每一个都有自由参数，我们将根据训练数据进行校准。

2.1 方向能量(Oriented Energy)

在自然图像中，亮度边缘不仅仅是简单的步骤。诸如镜面、相互光照和阴影等现象会导致由台阶、峰和顶组成的复合强度分布。方向能量(OE)方法[13]可以用来检测和定位这些复合边缘[14]。OE定义为:
$OE_{\theta ,\sigma }=(I*f_{\theta ,\sigma}^{e})^{2}+(I*f_{\theta ,\sigma}^{o})^{2} \tag{1}$ 其中 $f_{\theta ,\sigma}^{e}$ 和 $f_{\theta ,\sigma}^{o}$ 是一对偶对称和奇对称滤波器，方向为θ，尺度为σ。我们的偶对称滤波器是一个高斯二阶导数，而对应的奇对称滤波器是它的希尔伯特变换。 $OE_{\theta ,\sigma }$ 对取向θ的轮廓响应最大。滤波器沿着假定的边界方向以3:1的比例被拉长。

2.2 基于梯度的特征(Gradient-Based Features)

我们在分析中包括方向能量特征，因为它是检测图像中亮度边缘的标准手段。对于更复杂的特征，我们引入了一个基于梯度的范例，用于检测颜色和纹理以及亮度的局部变化。在图像中的位置 $(x, y)$ ，画一个半径为 $r$ 的圆，并在方向 $\theta$ 处沿直径分割。梯度函数 $G (x, y, θ, r)$ 比较两半圆盘的内容。圆盘两半之间的巨大差异表明图像沿圆盘直径存在不连续。
我们如何描述和比较每个线索的两个半圆盘区域？解决这一问题的成功方法通常基于在整个邻域中平均的像素值的经验分布来使用颜色和纹理特征。感知色彩空间中的颜色分布已成功地在QBIC[15]和Blobworld[8]图像检索系统中作为区域描述符。此外，Ruzon和Tomasi[16]，[17]的罗盘算子使用颜色直方图比较来查找彩色图像中的角落和边缘。对于纹理分析，有一个正在形成的共识，即图像首先应该与一组调谐到各种方向和空间频率[18]，[19]的滤波器进行卷积。滤波响应的经验分布已被证明是纹理合成[20]和纹理识别[21]的强大特征。
对于亮度和颜色梯度特征，我们在每个半圆盘中的像素亮度和色度分布进行核密度估计。分组是通过将每个高斯核采样到2 $σ$ 来完成的，其速率确保每个分组至少有两个样本。对于纹理梯度，我们计算每个半圆盘向量量化滤波器输出的直方图。在所有三种情况下，半盘区域都由直方图描述，我们将其与 $\chi ^{2}$ 直方图差分算子[22]进行比较:
$\chi ^{2}(g,h)=\frac{1}{2}\sum \frac{(g_i-h_i)^2}{g_i+h_i} \tag {2}$
因此，亮度、颜色和纹理梯度特征分别编码了亮度、色度和滤波器响应的局部分布的变化。
每次梯度计算都共享计算每个像素8个方向和3个半八度音阶上的直方图差值的步骤。在下面的部分中，我们将详细讨论表示和比较颜色、亮度和纹理的可能设计选择。

2.2.1 亮度和颜色梯度

有两种常用的方法来描述像素集的颜色分布之间的差异。第一种是基于使用直方图的密度估计。QBIC和Blobworld都使用完全三维的颜色直方图作为区域特征，并使用相似度度量(如 $L^1$ 范数、 $\chi ^{2}$ 差或一些二次形式)比较直方图。Blobworld平滑直方图以防止相似颜色的混叠，而QBIC明确地对箱子之间的感知距离建模。第二种常见的方法是通过使用Mallows[23]或Earth Mover’s distance (EMD)[24]来比较颜色分布，从而避免人工量化。此外，EMD明确地说明了颜色空间中点之间的“标准距离”。对于在感知色彩空间中的数据来说，这是一个理想的属性，因为在感知空间中，附近的点看起来是相似的。然而，一旦这样一个空间中的颜色比某种程度的分离更远，它们对人类观察者来说往往显得“等距”。Ruzon和Tomasi使用衰减的EMD来模拟这种感知衰减，但是EMD的计算成本仍然很高。对于一维数据，使用排序可以实现高效计算。然而，在更高的维度中，必须明确解决分配问题，这导致计算复杂度的显著增加。
我们希望能找到一种方法，在保持计算可行性的同时，根据人类的感知准确地模拟颜色分布。我们的方法是基于CIELAB中使用高斯核的颜色分布的分箱核密度估计，并将直方图与 $\chi ^{2}$ 差进行比较。 $\chi ^{2}$ 直方图的差异没有利用bin中心之间的感知距离。因此，如果没有平滑，感知上相似的颜色会产生不成比例的大 $\chi ^{2}$ 差异。由于CIELAB空间中点之间的距离在局部邻域中具有感知意义，对内核带宽 $\sigma$ 与该邻域的尺度匹配的核密度估计进行分集意味着感知上相似的颜色将具有相似的直方图贡献。在这个尺度之外，颜色差异在感知上是不相称的， $\chi ^{2}$ 将认为它们同样不同。我们认为，CIELAB中核密度估计与 $\chi ^{2}$ 直方图差异的这种组合很好地匹配了人类颜色感知的结构。
对于亮度梯度，我们计算 $L^*$ 值的直方图。由于像素值位于2D空间( $a^*$ 和 $b^*$ )，颜色梯度对密度估计提出了额外的挑战。当使用2D核和2D直方图时，通常会减少核样本的数量和箱子的数量，以保持合理的计算成本。然而，这降低了密度估计的质量。
我们不计算联合梯度 $CG^{ab}$ ，而是计算 $a^*$ 和 $b^*$ 的边缘颜色梯度，并将全色梯度作为相应边缘梯度的和: $CG^{a+b}$ = $CG^{a}$ + $CG^{b}$ 。这是因为 $a^*$ 和 $b^*$ 通道对应于人类视觉系统中发现的感知正交的红绿和黄蓝颜色拮抗(见Palmer[25])。 $CG^{ab}$ 和 $CG^{a+b}$ 的比较在第4节中介绍。

2.2.2 纹理梯度

以一种类似于亮度和颜色梯度算子的方式，我们制定了一个方向算子，用于测量尺度 $r$ 的纹理在图像位置 $(x, y)$ 沿 $\theta$ 方向上的变化程度。我们计算了以一点为中心，沿直径分为两半的圆盘的纹理不相似度。Rubner和Tomasi一直在沿着这些路线进行定向纹理处理[6]。
在这里插入图片描述
图4. 计算纹理基元。(a)滤波器组:用于计算文本的13元滤波器组。(b)通用纹理基元(Universal Textons):从200张训练图像中计算出的通用纹理基元示例，为显示目的按 $L^1$ 范数排序。c图像和(d) 纹理基元映射:图像及其相关的Texton映射。Texton质量最好的单规模过滤器组包含小过滤器。每个像素对滤波器组产生13个元素的响应，这些响应用k-means聚类。在这个例子中，使用200张k = 64的图像会产生64个通用纹理基元。textons确定了基本结构，如台阶，条和角在不同的对比水平。如果c所示图像中的每个像素被分配到最近的texton，并且每个texton被分配一个颜色，我们得到(d)所示的texton映射。拉长的过滤器具有3:1的朝向，并且较长的 $\sigma$ 设置为图像对角线的0.7%(约2个像素)。

图4a显示了我们用于纹理处理的滤波器板块。它包含六对细长、方向滤波器，以及一个中心环绕过滤器。方向滤波器是偶/奇正交对，与我们用来计算方向能量的滤波器相同。偶对称滤波器是一个高斯二阶导数，奇对称滤波器是它的希尔伯特变换。中心环绕滤波器是一个高斯差分。偶数和奇数滤波器响应不会像在计算方向能量时那样进行组合。相反，每个滤波器产生一个单独的特征。对于每个像素，我们将以像素为中心的13个滤波器响应的向量关联起来。注意，与[2]不同，我们没有对纹理处理的滤波器响应进行对比归一化。我们的实验表明，这种类型的归一化并不能提高性能，因为它似乎放大了噪音而不是信号。
每个半圆盘包含一组滤波器响应向量，我们可以将其可视化为特征空间中的点云，维度等于滤波器的数量。我们可以使用这两个点云的经验分布作为纹理描述符，然后比较描述符来得到纹理梯度的值。
关于这种方法的细节产生了许多问题。滤波器组应该包含多个尺度吗?这些尺度应该是什么?我们应该如何比较滤波器响应的分布?我们应该使用Earth Mover’s距离，还是应该估计分布？如果是后者，我们应该估计边缘分布还是联合分布，用固定的还是自适应的箱子?我们应该如何比较分布——一些 $L^p$ 范数或 $\chi ^{2}$ 差？Puzicha等人在这个框架中评估了广泛的纹理和描述符，并检查了许多这些问题。我们选择了[2]中开发的方法，它基于textons的思想。
texton方法使用自适应箱估计滤波器响应的联合分布。滤波器响应向量用k-means聚类。每个聚类在联合滤波器响应空间中定义一个Voronoi单元，聚类中心定义纹理基元。这些纹理基元(texton)只是滤波器的线性组合。图4b显示了在训练集中的200张图像上计算k= 64的示例纹理基元。在识别了texton之后，每个像素被分配给最近的texton。纹理的差异可以通过比较两个圆盘中文本标签的直方图来计算。图4c和4d显示了图像和相关的texton映射，其中每个像素都被标记为最近的texton。还存在一些问题，即使用什么图像来计算纹理， $k$ 的选择，计算直方图的过程，以及直方图比较度量。
为了计算texton，我们可以使用大量不同的图像集合来发现一组通用texton。另外，还可以通过在每个测试图像中分别聚类滤波器响应来计算特定于图像的纹理。texton的最佳数量 $k$ ，取决于通用和特定图像之间的选择，以及纹理梯度算子的缩放 $r$ 和图像的大小。探索这两个问题的实验将在第4节中介绍。
为了计算纹理基元直方图，我们使用了不平滑的硬箱。通过考虑像素到每个bin中心的距离，可以在texton框架中进行软箱。然而，这种类型的软箱在计算上是昂贵的，在我们的实验中，它并没有被证明是值得的。硬箱似乎不是问题，因为相邻像素由于滤波器的空间范围具有相关的滤波器响应。因此，数据已经在某种程度上平滑了，并且圆盘中的像素可能覆盖更少的箱子，确保每个箱子有更多的样本。
最后， $\chi ^{2}$ 差异并不是这个任务中唯一可行的直方图差异度量。Puzicha等人[22]和Levina[26]都评估了各种比较纹理分布的方法，包括 $L^1$ 范数、 $\chi ^{2}$ 差和Mallows或Earth Mover’s的距离。然而，最佳的差异测量取决于任务(匹配或辨别)和所使用的图像(Brodatz补丁或自然图像)。我们的实验表明，对于自然图像中的局部边界检测， $\chi ^{2}$ 差略优于 $L^1$ 范数，显著优于Mallows距离。

2.3 定位

我们试图研究的边界存在的基本功能在人类标记的图像边界位置周围达到了巅峰。相比之下，图2表明，我们目前讨论的特征不具有这种结构。由于它们在某些支持下收集信息的事实，它们产生平滑的、空间扩展的输出。由于每个像素都是独立分类的，空间扩展特征对于分类器来说是有问题的，因为边界像素和附近的边界像素都有很大的梯度值。
纹理梯度特别容易产生这种效果，因为它有很大的支撑。此外，TG在亮度边缘附近产生多次检测。沿着这样的边缘存在的纹理带通常在边缘的每一侧产生比在边缘上更大的TG响应。这种双峰问题在纹理边缘检测和分割工作[6]，[8]，[9]中普遍存在，它会沿区域边界产生边缘和条状区域的双重检测。我们知道没有解决这一现象的工作。非极大值抑制通常用于缩小扩展响应，但多次检测需要更通用的解决方案。我们利用纹理梯度响应的对称特性来精确定位边缘并消除双重检测。
为了使分类器可以使用边界的空间结构，我们转换原始特征信号，以同时平滑多个检测的方式强调局部极大值。给定一个特征 $f (x)$ 定义在正交于边缘方向的空间坐标 $x$ 上，考虑派生的特征 $\widehat{f}(x) = f(x)/d(x)$ ，其中 $=-\left | f{(x)}' \right |/ f{(x)}''$ 是距离 $f (x)$ 的最近最大值的一阶近似。我们使用平滑和稳定的版本: $\widehat{f}(x)=\widetilde{f}(x)\cdot( \frac{-f{(x)}''}{\left | f{(x)}' \right |+\epsilon }) \tag{3}$ 用 $\epsilon$ 选择优化性能的特性。通过合并 $1/ d (x)$ 定位项， $\widehat{f}(x)$ 的峰值将比原始 $f (x)$ 更窄。 $\widetilde{f}(x)$ 是消除双峰的底层梯度信号的平滑估计。
为了稳定地估计方向导数和平滑信号，我们在以每个像素为中心的半径为r的2D圆窗口上拟合一个圆柱形抛物线。将抛物面柱体的轴线约束为与像平面平行放置，并对边缘位置和方向进行编码;高度编码为边缘强度；抛物线的曲率编码了定位的不确定性。我们将圆形拟合窗口内的数据点投影到与图像平面和边缘方向正交的平面上，以便在一维函数上进行拟合。最小二乘抛物线拟合 $ax^2 + bx + c$ 可以直接得到 $f{(x)}' = 2a$ 和 $f{(x)}' = b$ ，以及 $\widetilde{f}(x) = c$ 的信号导数，因此定位函数为 $\widehat{f}(x)=-(2c^+a^+)/(\left | b \right |+\epsilon )$ ，其中c和a为半波整流。当c和a乘在一起时，需要进行这种修正以避免信号中无意义的符号变化。
图2的最后两列显示了将这种变换应用于纹理梯度的结果。其效果是减少噪声，紧密定位边界，并合并双重检测。我们发现定位过程并没有改善亮度和颜色梯度特征，所以我们的最终特征集包括 $\left \{ \widehat{OE}, BG,CG,\widehat{TG} \right \}$ ，每个在八个方向和三个半八度音阶。

3 评估方法

我们的系统最终将把前面部分的线索组合成一个函数 $P_b(x,y,θ)$ ，它给出了每个像素 $(x, y)$ 和方向 $θ$ 处边界的后验概率。为了优化该系统的参数，并将其与其他系统进行比较，我们需要一种方法来判断边界检测器的质量。我们将边界检测制定为区分非边界与边界像素的分类问题，并使用来自伯克利分割数据集[11]的人类标记边界作为ground truth，应用精度-召回框架。
分割数据集包含每1000张图像的5-10个分割。给被试者的指示很简短:你会看到一张照片。将图像分成若干段，其中段代表场景中的“事物”或“事物的一部分”。段的数量取决于你，因为它取决于图像。2到30之间可能比较合适。重要的是，所有的部分都具有大致相同的重要性。
图1展示了不同人类受试者之间的高度一致性。关于数据集构造的其他详细信息可以在[11]中找到。此外，数据集可以从互联网[27]下载，以及用于运行我们的边界检测和分割基准的代码。我们使用200张图像和相关分割作为训练数据，接下来的100张图像和相关分割作为测试数据集。
我们的评估措施——精度-召回曲线——是一个参数曲线，可以捕获随着检测器阈值变化而在准确性和噪声之间进行权衡的情况。精确度是检测结果中真正阳性的部分，而召回率是检测到的真阳性的比例，而不是错误的比例。在概率方面，精度是检测器信号有效的概率，召回率是检测到标准数据的概率。
精度-召回曲线是信息检索社区[28]的标准评估技术，Abdou和Pratt[29]首次用于评估边缘探测器。Bowyer等人采用了类似的方法，利用受试者工作特征(ROC)曲线对边界检测器进行评估。ROC曲线的轴是辐射和召回。召回率或命中率与上述相同。辐射，或假警报率，是指一个真阴性被标记为假阳性的概率。
虽然ROC曲线和PR曲线在定性上显示了漏检和假阳性之间的相同权衡，但ROC曲线不适用于定量边界检测。辐射对边界探测器来说并不是一个有意义的量，因为它取决于像素的大小。如果我们将图像分辨率增加 $n$ 倍，像素的数量就会增加 $n^2$ 倍。由于边界是一维的(或者至少分形维数小于2)，真阴性的数量将以 $n^2$ 的速度增长，而真阳性的数量将以 $n$ 的速度增长。因此，放射性沉降物将下降 $1/ n$ 。精度不存在这个问题，因为它是由阳性的数量而不是真正的阴性的数量标准化的。
在定量框架中评估边界探测器的其他方法也存在，例如Konishi等人使用的Chernoff信息[12]。虽然信息理论的方法可以产生一个有用的方法来排序算法相对于另一个，它不能产生一个直观的性能衡量。
当我们考虑使用边界映射的应用(如立体或物体识别)时，精度和召回测量在边界检测的上下文中特别有意义。根据需要多少真实信号才能成功实现R(召回)，以及可以容忍多少噪声P(精度)，来表征更高级别的处理是合理的。特定的应用程序可以定义这些数量之间的相对成本 $\alpha$ ，这将注意力集中在精度-召回曲线上的特定点上。F测度[28]，定义为： $F=PR/(\alpha R+(1-\alpha )P) \tag{4}$ 捕获这种权衡作为P和R的加权谐波平均值。沿曲线的最大F测量值的位置为给定 $\alpha$ 的应用提供了最佳的检测器阈值，我们在实验中将其设置为0.5。
精度和召回率是很有吸引力的指标，但要计算它们，我们必须确定哪些真正的阳性被正确检测到，哪些检测是错误的。精度-召回曲线上的每个点都是从探测器在特定阈值的输出中计算出来的。此外，我们有二元边界图作为来自人类主观的标准答案。现在，让我们考虑如何计算给定单个人类边界图的单个阈值机器边界图的精度和召回率。我们可以简单地对应相同的边界像素，并声明所有不匹配的像素都是误报或漏报。然而，这种方法不能容忍任何局部错误，因此会对生成可用的(尽管稍微有些局部错误)边界的算法造成过度惩罚。从图1可以看出，将机器边界像元分配到地真相边界时必须容忍定位误差，因为即使是地真相数据也存在边界定位误差。
[31]的方法是在上面描述的刚性对应过程中添加少量的斜率，以允许多次检测为代价允许小的定位错误。然而，机器和人类边界像素的显式对应是可靠地计算命中、失误和误报的唯一方法，我们需要计算精度和召回率。特别是，显式地计算对应关系以惩罚多个检测是很重要的。单一检测是Canny[5]定义的边界检测的三个目标之一，另外两个目标是高检测率和良好的定位。
幸运的是，我们能够以以下方式巧妙地处理这些问题。首先，我们将机器边界图分别与每个人的地图依次对应。只有那些与人类边界不匹配的机器边界像素才被算作假阳性。命中率只是对不同的人进行平均，因此为了实现完美的召回，机器边界图必须解释所有的人类数据。我们的目的是，这种估计精度和召回率的方法尽可能接近直观的输出评分。特别地，边界探测器的所有三个理想性质——探测、局部化、单一探测——都被该方法所鼓励，并在结果中可见。
总之，我们有了一种描述边界检测器质量的方法，它产生 $P_b(x,y,θ)$ 或 $P_b(x,y)$ 形式的软边界图。对于后者，取最大值除以θ。给定软边界图像 $P_b(x,y)$ ，我们生成一个精度-召回曲线。对曲线上的每个点进行独立计算，首先对 $P_b$ 进行阈值分割，生成二进制边界图，然后将该机器边界图与地面真相分割数据集中的每个人边界图进行匹配。精度-召回率曲线是一个丰富的性能描述符。当一个单一的性能测量是必需的或是足够的，精度和召回可以结合F测量。F测量曲线通常是单峰的，所以最大的F测量值可以作为检测器性能的总结。我们现在转向应用这种评估方法来优化我们的边界检测器，并将我们的方法与标准方法进行比较。

红色