论文翻译学习-A Hierarchical Graph Network for 3D Object Detection on Point Clouds

2020CVPR论文:
A Hierarchical Graph Network for 3D Object Detection on Point Clouds
(Jintai Chen1∗, Biwen Lei1∗, Qingyu Song1∗, Haochao Ying1, Danny Z. Chen2, Jian Wu)
点云上用于3D对象检测的分层图网络
作者团队:浙江大学
文章链接 :
A Hierarchical Graph Network for 3D Object Detection on Point Clouds

Abstract:
点云上的3D对象检测发现了许多应用。但是,大多数已知的点云对象检测方法不能充分适应点云的特性(例如稀疏性),因此不能很好地捕获一些关键的语义信息(例如形状信息)。在本文中,我们提出了一种基于图卷积(GConv)的用于3D对象检测的分层图网络(HGNet),该网络直接处理原始点云以预测3D边界框。 HGNet有效地捕获了点之间的关系,并利用多级语义进行对象检测。特别是,我们通过建模点的相对几何位置来描述物体形状,提出了一种新颖的形状专注GConv(SA-GConv)来捕获局部形状特征。基于SA-GConv的U形网络捕获了多层特征,这些多层特征通过改进的投票模块映射到相同的特征空间中,然后进一步用于生成提案。接下来,基于GConv的新提案推理模块基于包含全局场景语义的提案进行推理,然后预测边界框。因此,我们的新框架在两个大型点云数据集上表现出了最先进的方法,在SUN RGB-D上的平均平均精度(mAP)约为4%,在ScanNet-V2上的mAP约为3% 。

1. Introduction:

在本文中,我们基于图卷积(GConvs)提出了一种新颖的分层图网络(HGNet),用于点云上的3D对象检测。 HGNet包含三个主要组件:基于GConv的U形网络(GU-net),投标生成器和投标推理模块(ProRe模块)。特别是,我们开发了一个新的注重形状的GConv(SA-GConv),它通过对点的相对几何位置建模来捕获对象的形状信息。在我们的管道中,基于SA-GConv的GU-net将点云作为输入并捕获多级语义(请参见图2),并由提案生成器进一步汇总以生成包含以下内容的提案改进的投票模块(请参阅第3.4节)。结合了全局场景语义,新颖的提案推理模块(ProRe Module)利用完全连接的图来对提案进行推理,并预测边界框。在执行3D非最大抑制(NMS)之后,最终获得检测结果。 我们的物体检测结果的示例如图1所示。整个HGNet以端到端的方式进行训练。在我们的框架中,点云的局部形状信息,多级语义和全局场景信息(提议的特征)被分层图模型充分捕获,聚合和合并,充分考虑了点云的特征,我们在这项工作中的主要贡献如下:

(A)开发了一种新颖的分层图网络(HGNet),用于在点云上进行3D对象检测,其性能明显优于最新方法。
(B)提出了一种新颖的SA-(De)GConv,它可以有效地聚集点云中的特征并捕获对象的形状信息
(C)构建了一个新的GU-net以生成多级语义特征,从而对于3D对象检测至关重要。
(D)利用全局信息,我们ProRe模块通过对proposal进行(全连接)推理来提高性能。

在这里插入图片描述

2. Related Work

2.1. 3D Object Detection on Point Clouds

点云具有某些特殊特征(例如,稀疏和不规则),通常不适合卷积神经网络进行处理。对于点云上的3D对象检测,已经提出了许多方法[2、38、20、44、9、23],例如投影方法(例如Complex-YOLO [35],BirdNet [4]),体积卷积基于方法的方法(例如3DFCN [19],Vote3Deep [8])和基于PointNet的方法(例如F-PointNet [30],STD [46])。 PointNet [31]率先提出了一种使用原始点作为输入的方法,并获得了良好的性能,随后是许多框架[31、32、14、29、42]。 Lang等 [17]引入了支柱特征网络,将点云编码为伪图像,并由2D CNN处理。尽管新颖且快速,但框架[17]的局部信息并未得到很好的保存。因为基于PointNet的方法直接处理原始点,(所以)它们表现出良好的性能。但是,PointNet在信息聚合中没有考虑点的依赖性。杨等 [46]提出了一种两阶段融合方法STD,将基于PointNet的方法和基于体积卷积的方法相结合。但是,分两个阶段的过程可能会学到一些对象检测无法匹配的特征。 VoteNet [29]提出了一种新的投票方法,利用所学习的特征预测对象中心,这些特征有助于聚集远的(深层?)的语义信息。但是,局部形状信息在VoteNet中没有得到很好的解释。由于可以有多种对象,因此检测不同对象所需的功能可能不会处于相同的分布。换句话说,可能需要多级语义来标识不同的对象。

2.2. Spatial-based Graph Convolution Network

图卷积网络(GCN)可以分为两种类型:基于空间的[26、3、28]和基于频谱的[12、6、15、10]。 基于空间的方法主要基于图中顶点的空间关系,并广泛用于点云。因此,我们专注于思考空间图卷积方法。
通过直接汇总顶点的邻域信息,在[26]中提出了第一个基于空间的GCN。后来,在[10]中提出了一种归纳特征聚合算法(GraphSAGE,包括Mean聚合器,LSTM聚合器和Pooling聚合器)来代替转换学习。严格来说,GraphSAGE不是GCN的一种,但它体现了GCN的思想。 Graph Attention Networks [40]在学习相邻顶点之间的相对权重时采用了注意机制,并表现出比以前的作品更具吸引力的性能。此外,提出了许多基于关注(attention based)的GCN [18,1,25]。 GIN [45]为中心顶点及其相邻顶点分配了不同的权重。对于3D数据,Li等人 [21]介绍了扩张的GCN,可以更好地平衡 接收场和计算。功能丰富的GConv [41]验证了GConvs可以通过对点的几何位置建模来捕获形状信息,并且优于传统的形状描述符。 Wang等提出了一种用于语义分割的动态边缘卷积方法,称为EdgeConv [42],该方法旨在捕获点的关系,但忽略了点的相对几何位置的重要性。

3. Hierarchical Graph Network

3.1. Motivation and Overview

我们旨在为点云上的3D对象检测开发一种新的有效方法。与2D图像数据不同,点云通常不会呈现清晰的对象形状信息(例如,拐角和边缘),因此需要一些形状专注的特征提取器来处理点云。即使以前的工作[42,32,41] 隐式地利用点的位置,更有效地对点的几何位置进行显式建模,从而更好地描述物体的形状。此外,多层语义被证明对检测各种大小的对象是有益的[43,39,34,22]。同时,点可以在对象的表面上稀疏,因此不同层次的语义可以为彼此提供互补的信息。以往关于三维物体检测的许多研究都没有充分利用多层次的语义,而这对于处理具有不同尺寸和点稀疏度的物体的点云是非常有效的。

在这项工作中,我们开发了一个端到端分层图网络(HGNet),用于点云上的3D对象检测,如图2所示。
整个HGNet主要由三个部分组成:基于GConv的U型网络(GU-net)、提案生成器(Proposal Generator)和提案推理模块(ProRe Module)。

提出了一种新的形状关注GConv来捕获局部形状语义,GU-net来生成多级语义,由Proposal Generator聚合生成建议,最后,ProRe模块通过利用全局场景语义进行推理(提出的)建议来帮助预测边界框。下面我们将详细讨论在SEC新颖的形状注意(De)GConv。

在这里插入图片描述

3.2. Shape-attentive Graph (De)Convolutions

点云通常不能清楚地呈现对象形状,然而形状信息对于3D对象检测很重要。可以使用其相邻点的相对几何位置来描述点周围的局部形状。在本节中,我们将介绍一种新颖的专注于形状的GConv,它通过更改点的几何位置来捕获对象的形状

Shape-attentive Graph Convolutions(专注于图形的卷积)

考虑点集 X = x i ∈ R D + 3 n i = 1 X = { xi∈R^{D + 3} } n\underset{i=1}{} X=xiRD+3ni=1,其中 点 x i = [ f i , p i ] x_{i} = [f_{i},p_{i}] xi=[fipi] p i ∈ R 3 p_{i}∈R^{3} piR3是几何位置, f i ∈ R D f_{i}∈R^{D} fiRD是D维特征。

根据X,我们想生成一个点集 X ′ = x i ∈ R D ′ + 3 n i = 1 X^{'} = { x_{i}∈R^{D^{'} + 3} } n\underset{i=1}{} X=xiRD+3ni=1,n’<n

在此我们将 GConv设计来聚合从X到X’的特征。类似于PointNet ++中的采样层,我们首先从n个点中采样n’个点。特别地,在采样点xi∈X作为特征聚集的中心点之后,使用k个最近邻(kNN)或关于点的几何位置的球形查询[32]来构造局部区域。(本文以kNN为例)

我们注重(针对)形状的GConv(SA-GConv)通过独立项对点位置进行建模。考虑一个局部区域中的两个点 x i x_{i} xi x j x_{j} xj,其中 x i x_{i} xi是中心点, x j x_{j} xj x i x_{i} xi的相邻点之一。相对几何位置矢量 e i j = p i − p j e_{ij} = p_{i}-p_{j} eij=pipj可以很好地表达点 x i x_{i} xi x j x_{j} xj之间的相对几何方向和相对几何距离。通常,一个局部区域包含数十个点,如果 x j x_{j} xj枚举了局部区域中除 x i x_{i} xi之外的所有点,则这些点就足以表示3维空间中的局部形状。为了建模 点的相对几何位置并自适应地聚合点特征,我们以一种有吸引力的简单方式定义了有向GConv, SA-GConv:

f i = M A X x j ∈ K N N ( x i ) g ( p i − p j ) . f ( x i , x j ) ( 1 ) f_{i}=MAX\underset{x_{j\in KNN(x_{i})}}{}g(p_{i}-p_{j}).f(x_{i},x_{j}) (1) fi=MAXxjKNN(xi)g(pipj).fxixj(1)
在这里插入图片描述

我们通过一个可学习的函数g对相对几何位置建模: R 3 → R 1 R^{3}→R^{1} R3R1,点特征(包括几何位置)由 f f f表示: R D + 3 × R D + 3 → R D ′ R^{D + 3}×R^{D + 3}→R^{D'} RD+3×RD+3RD。在不失一般性的前提下,我们使用最大池化操作来最终汇总特征。尤其是,我们可以使用Sigmoid激活函数通过简单的一对一卷积来实现g,并通过 f ( x i , x j ) = M L P ( [ x i , x j ′ ] ) f(x_{i},x_{j})= MLP([x_{i},x'_{j}]) fxixj=MLP[xixj]来实现(产生) f f f,其中 x j ′ = x j − x i x'_{j} = x_{j} -x_{i} xj=xjxi,MLP(·)是具有批量归一化和ReLU激活的多层感知器,而[·,·]表示通道级联。操作如图3所示。
在这里插入图片描述
图3注重形状的GConv操作的说明。蓝色点 x i x_{i} xi表示采样点,其特征是通过将其他点( x i x_{i} xi包括橙色,黄色和绿色点)中的特征聚合而得到更新的。 p表示几何位置,聚合(方法)来自等式 (1)。

这种注重形状的操作不同于基于MLP的简单操作(例如EdgeConv [42])。等式(1)通过独立函数g显式计算形状信息,而基于MLP的方法则使用学习的权重。如果仅使用MLP对所有要素(包括“位置”)进行共同处理,则高维要素空间中的三个维度(例如,几何位置)的影响将非常有限。此外,如图7所示,g函数对形状信息高度敏感,并且这种形状描述对物体检测是有益的。

Shape-attentive Graph De-Convolution.

在处理网格结构数据时,有效的上采样操作通常会填充特征图(例如,通过插值法),然后执行卷积,如图4的左半部分所示。我们提出了形状注意图去卷积(SA-DeGConv),它执行SA-GConv的逆运算。 SA-DeGConv提供了一种以自适应方式将特征从某些点传播到更多点的方法,如图4的右侧所示。
SA-DeGConv分三个步骤执行
(1)填充点。如图2所示,如果我们对点特征图U4中的特征进行上采样以生成U3,则应遵循D3上点的位置来填充U3上的点,因为D3和U3上的点应在位置上对齐。
在这里插入图片描述

(2)特征初始化。因为 p i ( 4 ) ⊂ p i ( 3 ) {p_{i}(4)}⊂{p_{i}(3)} pi4pi3 p i ( 3 ) p_{i}(3) pi3) p i ( 4 ) p_{i}(4) pi4)分别表示U 3和U 4上第i个point的几何位置。因此,对于U3上的点,通过算术平均值 f i ∗ = ∑ j = 1 k f j ( 4 ) / k f_{i}^{*}=\sum_{j=1}^{k}f_{j}^{(4)}/k fi=j=1kfj(4)/k初始化特征, 其中 f j ( 4 ) f_{j}(4) fj4)表示U4上第j 个k位置相邻点的特征。

(3)特征聚合。我们使用SA-GConv(等式(1))更新U 3上所有点的特征,如图4所示:

在这里插入图片描述网格结构数据的上采样操作(左)和SA-DeGConv(右)的图示。在右侧,虚线圆表示填充点,蓝色箭头表示在执行SA-DeGConv时进行特征初始化的算术平均值。

3.3. GU-net

有效地检测对象需要使用丰富的语义。以前的方法(例如,基于点网的方法)很少使用多层次的语义,这对检测各种大小的对象并没有多大用处,如[22,24]中所讨论的那样。此外,由于点在物体表面可能是稀疏的,甚至是缺失的,因此使用多层次的语义为对象检测提供了丰富的信息。为了捕捉多层语义,我们提出了一种新的基于u-net的u形网络,基于SA-(De)GConv。我们设计了一个下采样模块,并将其重复堆叠4次以形成下采样路径,而将一个上采样模块重复堆叠两次以构成上采样方式。类似于FPN [22],GU-net生成具有三个 ‘点特征图’ 的特征金字塔(参见图2)。

在这里插入图片描述

Down-sampling Module

给定具有N个点的点特征图,我们首先通过最远点采样(FPS)对包含N’(N’<N)点的最远点抽样(FPS)[27,7,32]。然后利用KNN或围绕采样点的球查询构造局部区域,然后执行SA-GConv更新采样点的特征。通过这种方式,对点特征映射进行处理,以生成具有较少点的更高级别的点特征映射(例如,从D3生成D4)。

(FPS:假设一共有n个点,整个点集为N = {f1, f2,…,fn}, 目标是选取n1个起始点做为下一步的中心点:

  • 随机选取一个点fi为起始点,并写入起始点集 B = {fi};

  • 选取剩余n-1个点计算和fi点的距离,选择最远点fj写入起始点集B={fi,fj};

  • 选取剩余n-2个点计算和点集B中每个点的距离, 将最短的那个距离作为该点到点集的距离,
    这样得到n-2个到点集的距离,选取最远的那个点写入起始点B = {fi, fj ,fk},同时剩下n-3个点, 如果n1=3则到此选择完毕;

  • 如果n1 > 3则重复上面步骤直到选取n1个起始点为止.

Up-sampling Module
上采样模块的过程与下采样模块的过程相反,主要由SA-GConv执行。跳跃连接还用于按通道级联 桥接相应的点要素图(例如,U3和D3),除了最顶端的点要素图U 4外。U4和D4通过MLP连接。因此,GU-net输出具有三个点特征图的特征金字塔(见图2)。

3.4. Proposal Generator

GU-net(参见图2)生成了包含多级语义的三点特征图。某些先前的方法(例如VoteNet [29])仅使用一个特征图进行对象预测。即使通过在上采样路径中融合较低层的功能来计算较高层的功能,(但)将多层功能一起用于提案生成也会更加有益,因为不同层的特征提供了不同的语义。为此,我们提出了一种提案生成器,以改进的投票模块作为主要结构来预测对象中心(如图1所示),该模型将多级特征转换为相同的特征空间

Improved Voting Module

投票模块提出了VoteNet [29]来预测对象中心并集中对象特征。在本文中,我们对特征金字塔中的所有点特征地图执行投票操作。因此,改进的投票模块还有助于将(不同特征空间的)多层特征转换为相同的特征空间(如图1所示),可以进一步将其直接用于生成提案。由于SA-GConv效率更高,因此我们使用SA-GConv实现了改进的投票模块。投票过程由以下方式指定:
在这里插入图片描述

其中 f ∈ R F f∈R^{F} fRF p ∈ R 3 p∈R^{ 3} pR3是特征金字塔中各点的 特征 和 几何位置,而 f v ∈ R F v f_{v}∈R^{F_{v}} fvRFv p v ∈ R 3 p_{v} ∈R^{3} pvR3投票的特征 和 几何位置。 SA-GConv(·)来自等式 (1)。我们使用SA-GConv通过添加三个额外的通道来预测几何偏移来实现改进的投票模块

Generating Proposals.

通过执行改进的投票模块,可以将特征金字塔中的特征转换到相同的特征空间。为了汇总这些特征,我们通过FPS保留Np个投票,并将所有"票"的特征汇总到(保留的)‘投票’其中,类似于VoteNet(默认为Np = 256)。因此,多级特征被完全融合以预测边界框和分类。

3.5. Proposal Reasoning Module

通过上述结构,局部语义和多级语义被捕获并完全融合。一方面,这些语义是在局部接受域中学习的,但是全局场景语义并未用于对象检测中。另一方面,某些对象在其外表面上包含的点很少(例如,请参见图6中的SUN RGB-D数据集的点云),并且很难用这些有限的信息来检测这些对象。因此,我们提出了一个新的基于GConv的提案推理模块(ProRe模块)来利用全球场景信息去推理提案。提案的特征由新的GConv更新,合并了全局语义并将提案的相对位置用作‘注意图’。 提出将proposal的关系公式化为有向图Gg =(Vg,Eg)。 Vg表示顶点集,每个顶点用于表示为高维特征的特征。初始化将Gg中的边缘Eg设置为通过自环完全连接。

形式上,给定一个提案集,提案的特征位于F维空间中,我们考虑一个提案特征张量 H p ∈ R n × F H_{p}∈R^{n×F} HpRn×F 和一个张量 H p ∈ R n × 3 × 3 H_{p}∈R^{n×3×3} HpRn×3×3 来记录提案的相对位置 。在P中,元素 P i , j , k = p i , k − p j , k P_{i,j,k} =p_{i,k}-p_{j,k} Pijk=pikpjk,其中 P i , k P_{i,k} Pik P j , k P_{j,k} Pjk是第k维(k∈{x,y,z})第i个提案和第j个提案元素的几何位置 。推理过程可以指定为:
在这里插入图片描述
其中“ + H p T H^{T}_{p} HpT”表示残余连接[11], ⊙表示Hadamard乘积(按元素的乘积), 而运算 Ψ i ( i ∈ c , v ) Ψ_{i}(i∈{c,v}) Ψiicv主要由一维卷积实现,沿着 vertex-wise(逐顶点)方向 和channel-wise(逐通道)方向。逐点操作 Ψ v Ψ_{v} Ψv合并特征 ,同时在各个顶点(建议)之间传播信息,逐个通道的操作 Ψ c Ψ_{c} Ψc更新建议的特征。 H p ′ ∈ R n × F ′ H'_{p}∈R^{n×F'} HpRn×F表示推理后的提议特征张量。 与以前的GConvs不同,ProRe使用 γ γ γ来考虑特征聚集中提案之间的相对几何位置,从而将P转换为大小n×F’以进行Hadamard操作。推理后,如VoteNet [29]中所示,预测3D边界框和相应的类别。

3.6. Loss Functions

在Lvoting的指导下,改进的功能金字塔投票过程如下:
在这里插入图片描述
其中 1[ x i x_{i } xion object]指示点 x i x_{i} xi是否在物体表面上。 Mm是特征金字塔的第m级点特征图上某个对象上的点号,| ·|表示L1损失。其他损失术语Lobj-cls,Lboxes,Lsem-cls也遵循VoteNet。整个框架的损失函数定义为:

在这里插入图片描述

4. Experiments

为了评估我们的方法,HGNet的实验应解决两个关键问题:
Q1: How does HGNet compare to the state-of-the-art meth- ods for 3D object detection on point clouds?
Q2: How to analyze the performance of SA-(De)GConv (for local shape semantics), GU-net with Proposal Gener- ator (for semantics of multi-levels), and the ProRe Module (for global semantics)?

4.1. Implementation Details

图2中的整个HGNet是端到端训练的。我们在Python 3.6上使用PyTorch 1.0来实现我们的框架。该框架在1个GeForce RTX 2080Ti GPU上进行了培训。我们使用Adam优化器训练HGNet。批量大小为8时,学习速率最初为10-3,在80个周期后降低10倍,在120个周期后再次降低10倍。在SUN RGB-D上训练整个框架以实现融合大约需要18个小时,而在ScanNetV2上大约需要5个小时。在我们的实验中,使用平均精度(AP)评估指标遵循[29]中的指标。除了用于评估所比较框架性能的平均平均精度(mAP)外,我们还使用AP的变异系数(cvAP)来显示框架检测各种对象的适应性,定义为
在这里插入图片描述

4.2. Datasets

SUN RGB-D[36] 是显示室内场景的单视图数据集,共有37个对象类别(但使用了10个最常见的类别)。整个数据集包含约5K RGB-D图像和5,285张图像供训练。所有图像都用框内的定向3D边界和类别进行注释。在模型处理之前,我们将深度图像转换为点云数据

ScanNet-V2[5]是室内场景的数据集,包含约1.5K场景的RGB-D扫描。为了与最新的框架进行比较,我们按照[13]中的方法准备数据。输入数据。

Input Data与PointNet [31]相似,在从SUN RGB-D中的点云中随机采样20,000个点或在ScanNet-V2中的3D扫描中随机采样40,000个点后,我们使用原始点作为输入。我们仅使用VoteNet [29]中的高度特征和几何位置,而没有RGB提示。为了增强数据,我们沿x轴和y轴随机翻转点云,并按s倍s〜U(0.9,1.1)随机缩放点云。

4.3. Evaluation Results

Comparison with State-of-the-art Methods
为了回答问题Q1,我们将SUN RGB-D和ScanNet-V2与各种最新方法进行了比较:深滑动形状(DSS)[37],3D-SIS [13],2D驱动[16],F-PointNet [30],GSPN [47],梯度描述符云(COGD)[33]和VoteNet [29]。实验结果列于表1和表2。先前方法的性能结果可从原始论文或[29]中获得。

The experimental results实验结果表明,我们的HGNet在没有RGB提示的情况下大大优于所有以前的方法。具体而言,如表1所示,与诸如VoteNet之类的桌子和浴缸之类的VoteNet [29]相比,HGNet提升了大对象的AP得分。请注意,HGNet比以前的方法具有更少的偏差(甚至将cvAP在SUN RGB-D上降低约9 %),这说明HGNet更能适应各种物体。这可能是由于建议的特征金字塔和我们的层次图建模(SA-GConv,GU-net和ProRe模块)所致。值得注意的是,AP分数不能完全显示HGNet的功能,这将在下一段中进行讨论。此外,在我们的GPU上,无论是SUN RGB-D还是SCanNet,VoteNet和HGNet之间的每点云推理时间的差异都在0.001s之内。

Visualization Results. 图6给出了点云的一些可视化示例,比较了预测的边界框和地面真实框。这些示例表明,HGNet在各种对象上均具有良好的性能。此外,HGNet经常会在场景中检测到一些未被地面真实情况注释的对象(请参见图6中的SUN RGB-D的第一和第二行)。这意味着指标AP可能会低估HGNet的能力。
在这里插入图片描述

4.4. Ablation Analysis

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Ablation Experiments
为了回答问题Q2,我们通过在SUN RGB-D数据集上进行消融实验来评估SA-GConv,GU-net和ProRe模块的贡献。一些定量结果显示在表3中。我们通过SGConv(xi,xj)= f(xi,xj)比较了SA-GConv和简单的GConv(SGConv),从而消除了位置建模项g(pi-pj)。另外,我们将De-GConv与算术插值(Inter)进行比较,算术插值是De-GConv的初始化方法(在第3.2节中进行了介绍)。我们将特征金字塔与U 2进行比较(如图2所示)。表3中的第一行用于基线。如表3所示,SA-GConv,ProRe模块和要素金字塔分别贡献了约2%。此外,SA-DeGConv也贡献0.4%。显然,这些建议的组件是有用的。下面我们进一步讨论ProRe模块和SA-GConv的效果。
Local Shape Information Capturing
为了进一步说明SA-(De)GConv的性能,我们将其与PointNet ++的集合抽象模块(SA)进行了比较。我们在HGNet中将SA-GConv替换为SA,并在SUN RGB-D上比较投票结果的精度。投票结果显示了功能捕获的强度。我们定义一个较小的框和物体的边界框位于同一中心,小框的长度仅为边界框的30%。如果选票位于小方框中,我们将定义“精确选票”。我们计算“精确票数”与来自U 2的票数之比(如图2所示)。如表4所示,可以看出,使用SA-GConv将点更好地聚集到对象中心(在“精确投票”比率上超过6%)。

请注意,提案是通过投票产生的,因此投票结果非常重要。为了证明SA-GConv的形状信息捕获能力,我们让SA-GConvg(x)=maxxj∈kNN(xi){g(pi − pj)},等式中f(xi,xj)≡1。 (1)。 SA-GConvg(x)的g参数是从GU-net中第一个SA-GConv的g参数继承的(见图2)。然后,我们在SUN RGB-D点云上运行SA-GConvg(x)。如图7所示,具有明显形状信息(例如,拐角,边缘)的对象部分具有很高的响应性。此外,同一类别的对象之间的响应热图相似。这显然证明我们的SA-GConv(特别是g)可以通过对几何位置建模来很好地捕获形状信息。

在这里插入图片描述

The ProRe Module
ProRe模块可帮助功能在提案之间传播。如果已经充分了解了检测物体的功能,则该模块可能没有太大用处。但它有助于检测出很少点的物体(例如,某些物体上的点可能稀疏或缺失)。在SUN RGB-D的每个类别中,我们根据对象上的点数以升序对其进行排序,然后根据排序顺序将其分为10组。然后,我们计算每个百分比范围(组)中各个类别的总平均召回率(AR)。如图5所示,随着对象上的点数减少,ProRe模块的影响逐渐显现。对于点很少的物体,ProRe模块可以将召回率提高甚至超过12%。
在这里插入图片描述

5. Conclusions

对于点云上的3D对象检测,我们提出了一种新颖的HGNet框架,可通过分层图建模来学习语义。具体而言,我们提出了一种新颖且轻巧的“形状注意”(De)GConv来捕获局部形状语义,该语义集合了考虑点的相对几何位置的特征。我们基于SA-GConv和SA-DeGConv构建了GU-net,生成了包含多级语义的特征金字塔。特征金字塔投票上的点将位于相应的对象中心,并且进一步汇总多级语义以生成建议。然后使用ProRe模块在提案之间合并和传播功能,从而促进检测,通过利用全局场景语义来提高性能。最后,将对边界框和类别进行预测。与以前的方法不同,HGNet通过仔细考虑形状信息并聚合多级语义来获得更好的性能。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值