文献解读——关于条件随机场

2019.3.16

《Efficient inference in Fully Connected CRFs with Gaussian Edge Potentials》

arXiv:20 Oct 2012. Stanford University

摘要

大多数最先进的用于多类图像分割和标记的技术是使用条件随机场来定义像素或者图像区域的。区域级模型通常具有密集的成对连通性,而像素级模型更大,并且仅适用于稀疏图形结构。在本文中,我们考虑完全连接的CRF模型,该模型定义在图像中的完整像素集上。这样得到的图形具有数十亿个边缘,使得传统的推理算法不切实际。 我们的主要贡献是提出用于完全连接的CRF模型的高效近似推理算法,其中成对边缘势能( pairwise edge potentials )由高斯核的线性组合定义。 实验表明,像素级的密集连接性大大提高了分割和标记的准确性。

1 Introduction

多类图像分割和标记是计算机视觉中最具挑战性和最热门的研究问题之一。它的目标是在一些预定的对象类别中为每个图像像素分配一个类别,从而同时执行多个对象类的识别和分割。 一种常见的方法是将此问题看成在像素或图像块[8,12,18,19,9]上定义的条件随机场(CRF)中的最大后验(MAP)推断。CRF势能包含的平滑项可以使相似像素之间的标签一致性达到最大化,并且可以集成更精确的平滑项用于对象之间上下文关系的建模。
基本的CRF模型由单个像素或者图像块的一元势能和相邻像素或者图像块的二元势能组成。由此产生的邻接CRF模型在远距离连接建模上受限,并且导致对象边界的过度平滑。为了提高分割和标记的准确性,研究人员扩展了基本的CRF框架,以结合层次连接和在图像区域定义的高阶势能。然而,这些方法的准确性必然受到无监督图像分割的准确性的限制,后者用于计算模型操作的区域。 尽管CRF已经取得了显着进展[9,13,14],这限制了基于区域的方法在复杂对象边界周围产生准确标签分配的能力。
在本文中,我们探索了一种不同的模型结构,用于准确的语义分割和标记。 我们使用一个完全连接的CRF,它在图像上建立成对电位。 完全连接的CRF在过去已被用于语义图像标记[18,22,6,17],但完全连接模型中的推理的复杂性限制了它们应用于数百个或更少的图像区域的集合。 通过这些方法获得的这些准确性受到产生区域的无监督分割的限制。 相比之下,我们的模型连接图像中的所有单个像素对,从而实现了大量重新分割和标记。 主要的挑战是模型的大小,即使在低分辨率图像上也有数万个节点和数十亿个边缘。
我们的主要贡献是用于完全连接的CRF模型的高效推理算法,其中二元势能由在任意特征空间中的高斯核的线性组合来定义。 该算法基于CRF分布的平均场近似。 这种近似可以通过一系列信息传递步骤进行迭代优化,每次优化通过聚集所有其他变量的信息来更新单个变量。 我们表明,全连接CRF中所有变量的平均场更新可以使用特征空间中的高斯滤波来执行。通过采用有效的近似高维滤波,使得变量的信息传递从二次降低到线性,从而减少计算复杂性。得到的近似推理算法在模型中的边数上是次线性的。

2 The Fully Connected CRF Model

考虑在一组变量{X1,…,XN}上定义的随机场X. 每个变量的域是一组标签L = {l1,l2,…,lk}。 还有在变量{I1,…,IN}上定义的随机场I。其中,I代表尺寸为N的输入图像,X代表像素级图像标签的可能值。 Ij是像素j的颜色矢量,Xj是分配给像素j的标签。
条件随机场(I,X)通过吉布斯分布
在这里插入图片描述
来描述,

2019.3.19

《End-to-End Training of Hybrid CNN-CRF Models for Stereo》 2017.CVPR

在这里插入图片描述
对于学习到的一元和二元代价,CRF尝试使用一个联合解决方案,优化连通图中所有一元和二元代价的总和。文章故意选择不使用任何后期处理,以表明通过后处理获得的大部分性能可以由训练有素的CRF模型覆盖。我们观察到混合CNN + CRF网络已经很好地与浅CNN模型(例如3-7层)一起表现良好。

2019.4.2

《Conditional Random Field and Deep Feature Learning for Hyperspectral Image Segmentation》

摘要:

本文提出了一种通过CNN和CRF组合框架提取到的光谱信息和空间信息来分割高光谱图像的方法。 文章使用多个光谱立方体(spectral cubes)来学习使用CNN的深度特征,然后使用基于CNN的一元势能和二元势能来制定深度CRF,以有效地提取由三维数据立方体(cubes)组成的片(patches )之间的语义相关性。

1 前言:

高光谱成像技术获取并分析给定光谱范围内连续光谱带中的图像。 与其他类型的遥感数据相比,它可以提取更准确和详细的光谱信息。 这种能力极大地有益于光谱相似材料的识别和分类。联合探索光谱信息和各种光谱之间的空间关系,开发一种光谱 - 空间模型以用于精确的图像分割和分类。 由于这些优势,高光谱成像已成为农业,矿物学,监测和环境科学中广泛应用的宝贵工具。
高光谱图像分割的研究面临着一些挑战。大维度光谱带之间的不平衡与不充分的训练样本大大降低了分割性能。 仅利用光谱信息的分割算法无法捕获同一类目标的光谱特征的显着空间变异性,因此导致性能不令人满意。 由于未解决这些关键问题,高光谱分割在实际使用中面临着主要缺点。 可以采用几种策略来克服这些问题。 一种有效的解决方案是使用光谱和空间信息设计算法,这提供了有关物体形状,大小,材料和其他重要特征的更多辨别信息。
光谱-空间分割方法可以分为两类。第一类分别使用光谱和空间信息,其中空间信息通过使用空间滤波器预先感知。之后,将这些空间特征添加到对应每个像素的光谱数据上。然后可以在最终分类和分割之前使用降维方法。空间信息也可用于将初始像素分类结果进行后处理的改善,例如,通过均值漂移(mean shift)或马尔可夫随机场,等这些在图像分割中非常常见的策略。第二类将光谱和空间信息组合起来进行分割。李等提出在贝叶斯框架中整合光谱和空间信息,然后使用监督[10]或半监督算法[11]来执行分割。袁等人结合光谱和纹理信息,其中线性滤波器用于提供增强的空间模式。吉尔斯等人将高光谱图像建模为加权图,其中边缘权重由节点之间的光谱和空间信息的加权组合给出。除特征提取步骤外,还采用传统的图像分类或分割方法,如分水岭算法和最小生成林,对高光谱图像进行联合光谱空间处理。 由于高光谱数据通常以三维立方体表示,因此第二类方法可以产生包含有大量区别信息的特征,这对于更好的分割性能是有效的。
训练多层神经网络的最新进展在包括分类或回归任务在内的各种机器学习问题中起了很大作用。 “深层”架构可以提取更多抽象和不变的数据特征,因此能够在传统的分类器中产生更高的分类精度[16]。它还证明了它在分类光谱空间特征方面的成功[17]。
由于CNN可以有效检测输入数据相邻块之间的空间结构信息,所以尽管没有直接对邻域依赖性建模,但是得到的分割结果通常看起来更平滑。 然而,在CNN训练期间达到局部最小值以及输入图像中存在的噪声,都可能在分割图中产生空洞或孤立区域。 与其他机器学习方法相比,CNN通常受到形状和边缘约束的限制。 结果,最终分割在边缘上显得粗糙。
在这些情况下,进一步的分割步骤会产生更精确的输出。为此,将诸如马尔可夫随机场(MRF)和条件随机场(CRF)的概率图形模型与CNN相结合,通过明确地建模区域之间的依赖性来带来显着的改进。CRF已被用于模拟重要的几何特征,例如形状,区域连通性,区域之间的上下文信息等。 由于这些原因,最近有一种趋势是探索CNN和CRF方法的整合。最近的一些方法将CNN和CRF结合起来进行语义分割。 例如,郑等人。 [31]制定了具有高斯成对电位的密集CRF作为递归神经网络(RNN),用于通过传统CNN重新进行上采样的低分辨率预测。 我们认为,通过应用更先进的改进方法,例如训练反卷积网络,可以进一步改善这一改进过程阶段[19]。 Deconvolution network [32]用于在训练有素的CNN中对可激活的特征进行可视化更新网络架构以提高性能。 在分段框架中使用它来进一步改进从早期步骤获得的输出映射是合理的。
我们提出的“3DCNN-CRF“框架如下图,首先通过在光谱立方体上应用CNN获得粗略的特征图,该光谱立方体随后构建CRF图。 然后,我们通过扩展基于CNN的深CRF架构来计算CRF的一元和成对电位,以处理沿整个光谱通道的光谱和空间信息。 最后,使用平均场推理算法来执行最终分割。
在这里插入图片描述

2 用于高光谱特征表示的3D CNN

深度学习技术从原始输入数据中自动学习层级特征( hierarchical features)。然而,由图像块组成的训练样本必须转换成矢量,作为模型的输入,这样就不能将原始空间信息保留在图像中。 当矢量化特征用作输入时,同样的问题适用于1D-CNN模型。 这些方法通常分别提取空间和光谱特征,因此,他们没有充分利用图像数据联合光谱 - 空间相关性的重要性质,这对于分割非常重要。
在这里插入图片描述

构造深度CRF用于分割

由于在训练期间发生达到局部最小值,CNN获得的分类图中存在空洞或断开区域。CNN通常受到形状和边缘限制的限制。 最终分割可能在某些区域或对象的边缘上显得粗糙。 在高光谱遥感中,云阴影和地形会引起光谱响应的变化,并影响区域的对比度,从而在图像中产生不正确的类别。 因此,CNN有时仅识别区域的一部分,特别是在Griffith USGS数据集中观察到的。
为了解决这些关键问题,额外的分割步骤将极大地改善初始分类输出并在整个图像中产生大量重新定义的分段。 因此,我们通过将CRF与CNN集成来提出端到端建模方法,以便利用CNN和CRF的属性来更好地表征区域之间的空间上下文依赖性。 我们相信这种端到端学习方法非常适合于高光谱图像分析,因为集成模型将充分利用光谱立方体之间的空间关系来执行分割。 这是我们工作的动力。
在本节中,我们将简要解释在我们的框架中使用的这种深度CRF的工作原理。 深度CRF模型借鉴于Lin等人的工作,其适用于彩色或灰度图像(Efficient piecewise training of deep structured models for semantic segmentation)。 我们显着扩展了这个模型,使其适用于光谱维度数据。 CRF是一种无向概率图形模型。 它具有强大的推理能力,能够训练复杂的特征。 在训练期间,CRF充分利用过程中的空间背景信息,这在高光谱应用中非常相关和有用。
在本文中,我们提出了一个深度CRF,它将进一步分析前一节中描述的3D CNN获得的输出。 重要的是要注意,3D CNN提供的输出是3D特征图的形式,其各个位置由沿着谱域的空间坐标定义。 我们将这些空间位置定义为体素。 我们提出的深度CRF能够对这些体素邻域进行建模,因此非常适合处理高光谱数据。 我们方法中使用的深CRF的参数是通过应用在初始特征图上的CNN堆栈来训练的。 然而,代替使用频带组,深CRF中使用的CNN将整个频谱信道一起视为网络的输入,因为初始特征映射已经是具有不同波长范围的本地频谱 - 空间特征的强有力表示。
CRF图中的节点对应于特征图中的每个体素。 体素的标签由l∈Y给出。 稍后,通过将一个节点连接到所有其他相邻节点,在节点之间形成边缘,这些边缘构成CRF图中相邻体素之间的成对连接。 CRF模型可以表示为:
(ψ是成对势能函数,其基于相邻体素之间的相容性来确定。在我们的方法中,我们使用4连接将每个节点水平和垂直地连接到具有空间坐标(x±1,y)或(x,y±1)的四个相邻节点,而不是连接所有其他节点以减少 计算复杂性。)
在这里插入图片描述
在这里插入图片描述

一元势能

在这里插入图片描述

二元势能

在这里插入图片描述

平均场推断

通过用更简单的分布Q(v)近似CRF分布P(v)来实现E的最小化,该分布Q(v)表示具有独立的边际分布的乘积。在这个CRF模型中,我们使用两个高斯核。第一项表达了体素邻域的大小和形状,以鼓励相同标签。 该相似度由参数θα控制。 (平滑项)
在这里插入图片描述
该核由两个对角线协方差矩阵(每个轴一个)定义,其元素是参数θα,d。
在这里插入图片描述
第二项是类似的,仅使用附加参数γ来解释体素的均匀外观在由光谱信道λ上的空间坐标d定义的区域中的强度。(在位置特征上添加颜色特征)
[34]中的推理算法以迭代方式工作。第一步是初始化,其中执行针对各个体素的所有标签上的一元电位的soft-max函数。第二步是消息传递,其将上面定义的两个高斯核应用于对体素预测的当前估计的卷积。这反映了两个体素vp,vq彼此相关的强度。通过使用反向传播,我们计算滤波器响应的误差导数。下一步是对体素的每个标签取滤波器输出的加权和。当考虑每个标签时,可以将其重新配制为具有输入体素和输出标签的过滤器的通常卷积。可以计算误差,因为在反向传播期间已知输入和输出。这允许自动学习过滤器重量。接下来,执行兼容性变换步骤,然后为从初始CNN获得的每个单独体素添加原始一元电位。最后,迭代的归一化步骤可以表示为另一个softmax操作,它给出了段的最终标签。算法III-C总结了我们深度CRF方法对图像进行分割的重要阶段。
可以从该步骤获得分割图,该分割图由于在CNN训练期间重复使用合并层而导致不准确的对象边界的低分辨率表示。 为了克服这个问题,我们在CRF成对电位计算期间进一步采用反卷积网络,并在分割阶段产生重新定义的输出。

预测

卷积网络重复使用池化层以减少输入图像大小,这在一定程度上限制了网络的预测性能。 并不总是能够准确地重建对象边界的高分辨率表示。 结果,CNN在预测阶段产生原始输入图像的低分辨率预测,其最终也影响CRF分割。 为了克服这个问题并进一步改进预测,我们在CRF二元电势能计算期间使用反卷积网络以在分段阶段产生重新定义的输出。

A.使用反卷积网络预测改进

为了从平均场推断中获得高分辨率的分割图,我们在我们的框架中添加了一个反卷积网络[30]。 尽管在文献中可以找到反卷积的使用,但是反卷积的学习并不常见。 在我们的方法中,我们学习了一个深度反卷积网络,它由反卷积,解卷和整形线性单元(ReLU)层组成[32]。
1)反池化:在卷积网络中进行池化操作非常普遍。池化通过滤除较低层中的嘈杂激活并仅保留上层中的激活来改善分类性能。它可以使用单个值抽象接收字段中的激活。不幸的是,在池化期间,接收场​​内的空间信息会丢失。结果,图像分割所需的精确定位并不总是可行的。为了克服这个问题,在解卷积网络中使用反池化层,它实现了池化层的精确反向操作。在CRF成对训练期间,反池化操作通过重建输入数据的原始大小并因此恢复感兴趣对象的详细结构来产生对象的更精细分辨率。通常,反池化操作会跟踪在合并操作期间选择的最大激活的位置。此信息在将激活放回其原始池位置时非常有用。
2)解卷积:解拼操作产生一个大的激活映射,其本质上不是常规的。虽然反卷积操作类似于卷积运算,但它实际上为单个输入分配了多个输出,这与卷积操作不同,后者将滤波器窗口或补丁中的多个输入连接到单个激活值[30],[19]。与先前获得的稀疏激活图相比,此操作产生更密集的激活图。在反卷积操作期间使用的滤波器有助于加强接近目标类别的激活,并且还抑制来自包含不同类别的区域的噪声激活。结果,去卷积网络的不同层可以帮助重建不同级别的形状。较低层中使用的过滤器可以帮助重建对象的整体形状,而较高层过滤器可以帮助更多类别的特定细节。因此,通过使用去卷积网络可以获得更多精确和准确的分割结果。
在所提出的算法中,我们仅在深度CRF训练期间将解卷积结合到CNN训练中。 这是因为我们希望在其中生成具有类特定信息的最终密集分割图,而不是简单地将其应用于低分辨率激活图上作为单独的步骤。 在深度CRF训练的成对电位计算期间的去卷积的整合特别有助于在更大程度上提高分割精度。 在深度CRF模型的最终CNN训练期间,反池化,解卷积和整理操作的组合在制定图像块之间的成对关系和改善最终分割性能方面起到了很大作用。

CRF训练

无向图形模型的精确最大似然训练是难以处理的,因为计算涉及模型的边际分布计算。 当我们需要预测某个给定的观察输入体素v时,这对于条件训练来说甚至更复杂。这最终导致优化P(l | v)而不是p(l,v)的决定。 CRF中的参数估计可以通过最大化训练输入 - 输出对(v,l)的对数似然来执行,如先前在等式(3)和等式(4)中定义的。 对于所提出的基于CNN的CRF,CRF的目标函数可以定义为
在这里插入图片描述
尽管(v,l)的对数似然的这种最大化改善了性能,但是条件训练是昂贵的,因为对数分区函数Z(v)的计算取决于模型参数以及沿着谱通道的输入体素。 因此,估计CRF参数必须包括在随机梯度下降(SGD)方法的训练阶段期间近似每次迭代的分区函数。 当在CNN训练期间SGD需要大量迭代步骤时,这变得更加复杂。 因此,需要有效的CRF训练以降低计算复杂性。
为了有效地训练大型模型,我们可以将整个模型分成几部分,然后独立地训练这些部分。 之后,我们可以将这些部分中学到的权重结合起来并将其用于测试目的。 这种被称为分段训练的想法在[38]中讨论过。
在[38]中定义并证明了一个命题,即关于最大化真实可能性下界的分段估计。 它说:
在这里插入图片描述
这里,A | e表示具有零的向量A,其中0表示与边e不对应. 因此,CRF的分段目标函数可以定义为训练输入 - 输出对(v,l),如下所示:
在这里插入图片描述
根据等式(10)中的命题,对于每个v,需要单独应用边界,这消除了对梯度计算的边际推断的要求。 这个想法可以纳入具有CNN潜力的CRF训练中。 我们可以将P(l | v)表示为一元和成对电位上的一些独立似然:
在这里插入图片描述
在这里插入图片描述
如分段CRF训练评估函数所示,不再需要计算分区函数,我们只需要计算Pφ和Pψ的对数似然。 结果,可以在没有分区功能的情况下执行梯度计算,从而节省了昂贵的推理。

2019.4.3

《Learning Graphical Model Parameters with Approximate Marginal Inference》——利用近似边际推断学习图模型参数

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值