Semantic Segmentation with Second-Order Pooling论文笔记

1 Introduction

对象识别和分类是计算机视觉中的核心问题。许多流行的识别方法可以看作是实现标准处理流程:(1)密集局部特征提取,(2)特征编码,(3)编码局部特征的空间汇集构造特征向量描述符,以及(4)将得到的描述符呈现给分类器。

池化的作用是产生图像区域的全局描述 - 单个描述符总结了区域内的局部特征,并且可以作为标准分类器的输入。

在本文中,我们介绍和探索使用以对称矩阵形式捕获的二阶信息的汇集方法

contributions

  1. 二阶特征汇集方法利用了计算差分几何的最新进展[8]。特别地,我们利用对称正定矩阵空间的黎曼结构来构造自由形式区域内的局部特征集,同时保留关于它们成对相关的信息。所提出的池化过程在没有任何编码阶段和线性分类器的情况下表现良好,允许在特征数量和示例数量方面具有很大的可扩展性
  2. 通过在多个重叠自由形式区域的共享区域上缓存池化输出,在大量区域上有效执行二阶池化的新方法
  3. 二阶池的局部特征丰富方法。我们使用原始图像信息以及区域空间支持内局部特征的相对位置和比例来增强标准局部描述符,例如SIFT [9]。

令人惊讶的是,与线性分类器串联使用的二阶池优于与非线性内核分类器一起使用的一阶池。

2 Second-Order Pooling

  • Log-Euclidean Tangent Space Mapping
  • Power Normalization

3 Local Feature Enrichment

与一阶池化方法不同,我们通过直接在原始局部描述符(例如SIFT)上使用二阶池化来观察到良好的性能(例如,没有任何编码)。这可能是由于这样一种事实,即通过这种类型的池,保留了描述符维度的所有交互对之间的信息。

我们使用区域内的相对坐标以及其他原始图像信息来丰富局部描述符,而不是编码。

3.1 Multiple Local Descriptors

在实践中,我们使用了三个不同的局部描述符:SIFT [9],一种称为掩蔽SIFT(MSIFT)和局部二值模式(LBP)[25]的变体,用于生成四个不同的全局区域描述符。

4 Efficient Pooling over Free-Form Regions

我们提出了两种方法来加速多个重叠自由形态区域的局部特征汇集。

  • Caching over Region Intersections缓存区域交叉点
  • Favorable Region Complements有利的区域补充

5 Experiments

我们分析了我们的方法在Pascal VOC 2011分段数据集的清洁地面实况对象区域的几个方面。这使我们能够从识别段选择和推理问题中分离出识别效果,并且易于与未来的工作进行比较。我们还通过对基于超基于像素的地面真实区域重构进行识别来评估分割“噪声”存在下的识别准确度。使用公开可用的包VLFEAT [26],在多个尺度上进行局部特征提取,所有涉及线性分类的结果都是通过幂归一化获得的。我们邀请读者参考我们可用的实施方案,了解有关这些操作的详细信息。

我们首先使用SIFT和丰富的SIFT(enriched SIFT descriptors)描述符比较一阶和二阶最大和平均池。(max and average pooling)

我们使用LIBLINEAR训练20个Pascal类的一对一SVM模型[31]

5.1 Semantic Segmentation in the Wild - Pascal VOC 2011

为了全面评估识别性能,我们在没有地面真值掩模的Pascal VOC 2011分割数据集上尝试了最好的汇集方法。我们遵循类似于SVR-SEGM的前馈架构。首先,我们使用公共可用的Constrained Parametric Min-Cuts约束参数最小割(CPMC)实现计算每个图像最多150个排名靠前的对象分割候选池[30]。然后我们在每个候选中提取前面详述的特征组合,并将它们提供给每个类别的linearsupport矢量回归量(SVR)。训练回归量以预测每个片段与来自每个类别的对象之间的最高重叠[18,19]。

  • Learning.

我们在“分割Segmentation”和“主要Main”数据子集中使用了所有12,031个可用的训练图像,用于学习,如挑战规则所允许的,以及在线提供的附加分段注释[32],类似于Arbelaez等人最近的实验[20]。]。考虑到所有那些图像的CPMC段导致总共大约178万个段描述符,CPMC描述符集。此外,我们收集了与地面实况和镜像地面真实段相对应的描述符,以及与每个地面实况对象分段最佳重叠的CPMC段,以形成“正”描述符集。我们使用非中心PCA将描述符组合的维度从33,800维度减少到12,500 [33],将CPMC的描述符分为4个块,这些块分别位于32 GB的可用RAM内存上。非中心PCA明显优于标准PCA(在相同数量的目标维度下,VOC分割得分提高约2%),这表明不同维度的相对平均幅度是信息性的,不应通过平均减法来计算。我们在减少的地面真实段以及它们的镜像版本(59,000个示例)上学习了PCA基础,这些版本只需要大约20分钟。我们采用类似于目标检测[13]的学习方法,其中训练数据也很少进入主记忆。我们使用“正”集和CPMC描述符集的第一个块训练每个类别的初始模型。我们存储了来自CPMC集的所有描述符,这些描述符都是支持向量,并使用学习的模型快速筛选下一个CPMC描述符块,同时收集硬实例(在SVRε边界之外)。然后,我们使用正集和硬反面示例的缓存重新训练模型,并迭代直到所有块都被处理。我们通过重复使用前面所有示例的先前的α参数并初始化α的值来热启动新模型的训练,使新示例为零。我们观察到1.5-4倍的加速

每个图像使用150个段,高度依赖于形状的eMSIFT-F描述符每个图像需要2秒才能计算出来。 我们评估了其他3个区域描述符的拟议加速,它们适用。缓存将计算时间缩短到仅3秒,并利用有利的段补充减少了2.4秒的时间,比原始池化naive pooling加速4.8倍。本小节中报告的时间是在具有32GB RAM的台式PC和具有6个内核的i7-3.20GHzCPU上获得的。

Inference

应用简单的推理过程来计算偏向于具有相对较少对象的标签。它通过顺序选择具有高于“背景”阈值的最高分数的分段和类来操作。每次选择新段时,该阈值都会线性增加,因此每个新段需要更大的存储余量。然后,按照得分的顺序将选定的片段“粘贴”到图像上,以便将较高得分的片段叠加在分数较低的片段之上。初始阈值自动设置,以便每个图像的所选片段的平均数量等于训练集上每个图像的平均对象数,即2.2,并且线性增量设置为0.02。本文的重点不在于推理,而在于特征提取和简单的线性分类。可以插入更复杂的推理程序[18,19,34,35]

Results.

表4中报告了测试集的结果。建议的方法获得的平均得分为47.6,比2011年挑战赛的两种获胜方法提高了10%和15%,两种方法都使用了相同的非线性回归量,但只能使用在训练期间,其余9,808张图像中有2,223个地面真相分割和边界框。相比之下,我们的模型使用了所有训练图像的分割掩模。除了更高的识别性能之外,我们的模型在训练和测试方面要快得多,如表3中的并排比较所示。所提出的方法的报告学习时间包括PCA计算和特征投影(但非特征提取,类似于两者例)。在学习之后,我们将学习的重量矢量投影到原始空间,以便在测试时不需要昂贵的投影。我们观察到,重新投射学习的权重向量并没有改变识别准确性

 

 

  • Efficiency of Feature Extraction

5.2 Caltech101

语义分割是一个重要问题,但更广泛地评估二阶汇集也很有意义。我们使用Caltech101 [11]来实现这一目的,因为尽管与Pascal VOC相比有其局限性,但迄今为止它一直是编码和汇集技术的重要测试平台。关于局部特征提取,编码和汇集的大部分文献已经报道了Catech101的结果。许多方法使用特定的特征编码方法[3,36,37]在空间金字塔上使用最大或平均汇集。在这里,我们使用theraw SIFT描述符(例如,没有编码)和我们在空间金字塔上提出的二阶平均池。由于空间金字塔中每个单元格的全局描述符的串联,得到的图像描述符有点高维(使用SIFT为173.376维),但是因为线性分类器使用和训练样例的数量很少,学习只需几秒钟。我们还使用带有RBF内核的SVM进行了实验,但没有观察到线性内核的任何改进。我们提出的池化使用30个训练样例和标准评估协议,在单个特征的聚合方法中获得最佳准确性。它还与其他表现最好,但显着较低的替代品竞争。我们的方法实现起来非常简单,高效,可扩展,无需编码阶段。结果和其他细节可以在表5中找到。

6 Conclusion

我们提出了一个自由形态区域二阶池的框架,并将其应用于对象类别识别和语义分割。该提出的池化程序实现起来非常简单,涉及少量参数,并且与线性分类器一起获得高识别性能,并且没有任何编码阶段,只处理原始特征。我们还提出了局部描述符丰富的方法,导致性能提高,全局区域描述符维度仅略有增加,并提出了一种加速任意自由形态区域汇集的技术。实验结果表明我们的方法优于Pascal VOC 2011语义分割数据集的最新技术,使用的回归量比最精确的方法快4个数量级[18]。我们还通过直接汇集原始SIFT描述符,使用单个描述符并且没有任何特征编码在Caltech101上获得最先进的结果。在未来的工作中,我们计划探索除乘法之外的不同类型的对称成对特征交互,例如最大和最小。资源实现本文所介绍技术的代码可从我们的网站公开获取。http://www.maths.lth.se/matematiklth/personal/sminchis/code/o2pCode.html

参考:Carreira J, Rui C, Batista J, et al. Semantic Segmentation with Second-Order Pooling[J]. 2012, 7578(1):430-443.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: randla-net是一种高效的大规模点云语义分割方法。它采用了一种新颖的点云降采样方法,可以在保持点云形状信息的同时大大减少点云数量。此外,它还使用了一种基于局部区域的特征提取方法,可以有效地捕捉点云中的局部特征。最终,randla-net可以在保持较高分割精度的同时,大大提高分割速度。 ### 回答2: Randla-Net是一种高效的大规模点云语义分割方法,它利用深度学习方法实现对三维点云数据中物体的自动识别和分类。在智能驾驶、金字塔建设、城市规划和3D建模等领域,点云数据已经成为一种重要的数据形式。在处理点云数据时,常常需要对点云中的各种物体进行语义分割,划分出物体的类别和边界,以进一步进行场景分析和建模。 Randla-Net的关键思想是将点云数据转换成局部规则网格(LHG)型式,然后对规则网格应用神经网络模型,实现对点云的语义分割。相较于传统的点云分割方法,Randla-Net的解决方案更加高效,并且能够适应大规模点云数据的处理。具体来说,Randla-Net采用的局部规则网格可以大大减少点云数据的复杂性,减少无效数据的计算,同时保证点云数据与原始数据的对应性。神经网络模型的引入能够提高计算的全局一致性,并在语义分割中对局部特征和位置被高效获取。此外,Randla-Net融合了RANDomized LAyered points(简称RANDLA)的思想,可以抽取多级别多方向的特征,使得点云数据在语义分割中的处理更加准确。 总之,Randla-Net是一种快速、有效、准确的大规模点云语义分割方法,其优点在于可以处理复杂的大规模点云数据,同时在语义分割中能够提供更高的计算效率和更精确的结果。它的应用将会推动点云技术的发展,为智能驾驶、建筑、机器人、VR/AR等领域提供更加精确的三维场景建模工具。 ### 回答3: RandLA-Net是一种高效而准确的点云语义分割神经网络,专为应对大规模点云场景而开发。该网络的核心功能在于通过快速地对点云数据进行聚类、降采样和投影等操作,实现了对点云进行语义分割,并能够输出详细的分割结果。 RandLA-Net相对于传统点云语义分割算法的优势在于,该算法不但能够处理大规模点云数据,同时还利用了矩阵分解的方法来提高运行速度。因此,该算法在极端情况下也能实现快速和准确的分割,如在不同分辨率、不同大小和不同密度的点云数据上。 RandLA-Net的另一个创新点在于使用了自适应滑动窗口的方法,就是通过分析点云的特征分布,来自动选择和匹配最适宜的窗口大小,以此进一步提高分割效果。同时,该算法还考虑到了实际应用场景中存在的地面、建筑物等不同的目标物体,对各自进行分割和处理,以期达到更高的准确率。 总的来说,RandLA-Net是一种高效、准确、可扩展的神经网络,为卫星、城市规划、无人驾驶等领域提供了强大的支持。该算法的研究提供了新的思路,为点云语义分割界的研究者提供了很好的启示,也为工业界解决实际问题提供了新的思路。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值