3DVID
Abstract
模型提出了两个组件:
- 空间特征编码组件(Spatial feature encoding component)
- 时空特征聚合组件(spatialtemporal feature aggregation component)
在空间特征编码组件中,提出了Pillar Message Passing Network(PMPNet)用于编码每个离散的点云帧.它通过迭代消息传递自适应地从相邻节点中收集信息,有效地扩大了支柱特征的感受野。
在时空特征聚合组件中, 我们提出了Attentive Spatiotemporal Transformer GRU (AST-GRU), 聚合时空信息,利用注意力的记忆门控机制增强了传统的ConvGRU。AST-GRU包含空间变形注意力模块Spatial Transformer Attention(STA)和时间变形注意力模块 Temporal Transformer Attention (TTA), 能够分别增强前景目标和对齐动态目标.
Introduction
单帧图像可能带来的问题:
遮挡、长距离和非均匀采样不可避免地发生在某一帧上,其中单帧对象检测器无法处理这些情况,导致性能恶化.
传统的获取体素或者柱信息,并利用CNN提取信息的方法的不足:
然而,这些方法的一个潜在问题是,它们只关注局部聚合特征,即使用PointNet[39]为单独的体素或支柱提取特征,如[62]和[24]中的特征。 为了进一步扩大接收域,它们必须重复应用步长或池操作,这将导致空间信息的丢失。
PMPNet网络的优点:
PNPNet将非空柱子作为一个图节点,并且通过从周围聚合信息的方式适应的为一个节点扩大感受野。PMPNet能够在一个离散的点云帧中通过迭代的推理一个k-NN图在不同的柱状中挖掘丰富的集合关系。这有效的促进了不同空间的区域中的信息交换。
基于LiDAR的自主驾驶场景中的三维视频目标检测的两个不足:
- 首先,在鸟瞰图中,大多数前景对象(例如汽车和行人)占据小区域(平均18×8像素的汽车,支柱大小为 0.2 5 2 0.25^2 0.252平方米。)背景噪声不可避免地随着计算递归单元中的新内存而积累。 因此,我们建议利用空间变压器注意(STA)模块,一个由[48,53]导出的内部注意力,通过使用上下文信息来处理每个像素来抑制背景噪声和强调前景对象。
- 当更新递归单元中的内存时,两个输入(即旧内存和新输入)的空间特征没有很好地对齐。 特别是,虽然我们可以使用自我姿态信息在帧之间精确地对齐静态对象,但具有大运动的动态对象不对齐,这将损害新内存的质量。 为了解决这一问题,我们提出了一个时间转化注意力(TTA)模块,该模块自适应地在连续帧中利用时间注意力机制捕获对象运动。
Related Work
Model Architecture
整体结构:
-
给定输入序列KaTeX parse error: Undefined control sequence: \I at position 2: `\̲I̲_t^{T}_{t=1}`T帧,我们首先利用GPS数据将前一帧KaTeX parse error: Undefined control sequence: \I at position 2: `\̲I̲_t^{T−1}_{t=1}`的点云坐标转换为当前帧T,以消除自我运动的影响,并将静态对象在帧间对齐。
-
在空间特征编码组件中,我们使用支柱消息传递网络(PMP Net)和2D backbone提取每个帧的特征,产生顺序特征KaTeX parse error: Double subscript at position 9: `X_t^{T}_̲{T=1}`.
-
这些特征被输入到时空特征聚合组件中的注意力时空变压器门控递归单元(AST-GRU)(§3.2)中,以生成新的内存特征 ‘ H t t = 1 T ‘ `{H_t}^{T}_{t=1}` ‘Htt=1T‘。
-
在 ‘ H t t = 1 T ‘ `{H_t}^{T}_{t=1}` ‘Htt=1T‘上应用RPN头,给出最终检测结果KaTeX parse error: Undefined control sequence: \Y at position 2: `\̲Y̲_t^{T}_{t=1}`。
Pillar Message Passing Network
这种设计有效地保留了原始点云的非欧几里德几何特征,增强了输出柱特征的非局部性。
Attentive Spatiotemporal Transformer GRU
ConvGRU
z
t
:
u
p
d
a
t
e
g
a
t
e
;
r
t
:
r
e
s
e
t
g
e
t
;
H
~
t
:
c
a
n
d
i
d
a
t
e
m
e
m
o
r
y
;
H
t
:
n
e
w
m
e
m
o
r
y
;
∗
:
卷
积
操
作
;
o
:
矩
阵
点
乘
;
σ
:
激
活
函
数
;
W
,
W
z
,
W
r
a
n
d
U
,
U
z
,
U
r
:
2
D
卷
积
核
;
z_t: update gate;\\ r_t: reset get;\\ \tilde H_t: candidate memory;\\ H_t: new memory;\\ *: 卷积操作;\\ o: 矩阵点乘;\\ \sigma: 激活函数;\\ W,W_z,W_r and U, U_z, U_r: 2D卷积核;\\
zt:updategate;rt:resetget;H~t:candidatememory;Ht:newmemory;∗:卷积操作;o:矩阵点乘;σ:激活函数;W,Wz,WrandU,Uz,Ur:2D卷积核;
Spatial Transformer Attention
该STA模块的核心思想是在具有丰富空间上下文的每个像素级特征x∈Xt上,以更好地区分前景对象和背景噪声。
A
(
⋅
,
⋅
)
:
注
意
力
权
重
;
Φ
K
,
Φ
Q
,
Φ
V
:
将
输
入
x
q
,
x
k
∈
X
t
映
射
到
不
同
的
嵌
入
子
空
间
的
线
性
层
;
A(·, ·): 注意力权重;\\ \Phi_K, \Phi_Q, \Phi_V: 将输入x_q, x_k\in X_t映射到不同的嵌入子空间的线性层;\\
A(⋅,⋅):注意力权重;ΦK,ΦQ,ΦV:将输入xq,xk∈Xt映射到不同的嵌入子空间的线性层;
- 输入特征 X t X_t Xt首先嵌入为 K t K_t Kt、 Q t Q_t Qt和 V t ∈ R W × h × c ‘ V_t \in R^{W×h×c‘} Vt∈RW×h×c‘通过 Φ K \Phi K ΦK、 Φ Q \Phi Q ΦQ和 Φ V \Phi V ΦV。 然后,我们将 K t K_t Kt和 Q t Q_t Qt的张量形状调整为 l × c ‘ l×c‘ l×c‘,其中 l = w × h l=w×h l=w×h,以计算注意力权重(12);
- A ~ . V t \tilde A . V_t A~.Vt得到注意力权重,利用 W o u t W_{out} Wout将维度 c ′ c' c′转化为 c c c,再利用残差算子得到KaTeX parse error: Expected group after '^' at position 4: X_t^̲';
Temporal Transformer Attention
核心是在 H t 1 H_{t_1} Ht1中,通过整合运动信息计算得到的具有自适应支持关键区域聚焦query。
改编的变形卷积层
G
(
⋅
,
⋅
)
:
由
双
线
性
插
值
函
数
定
义
的
权
重
,
使
得
G
(
a
,
b
)
=
最
大
值
(
0
,
1
−
∣
a
−
b
)
△
p
m
∈
△
P
t
−
1
Φ
R
:
一
般
的
卷
积
层
;
[
⋅
,
⋅
]
:
合
并
;
G(·, ·): 由双线性插值函数定义的权重,使得G(a,b)=最大值(0,1−|a−b)\\ \triangle pm \in \triangle P_t−1\\ \Phi_R: 一般的卷积层;\\ [·, ·]: 合并;\\
G(⋅,⋅):由双线性插值函数定义的权重,使得G(a,b)=最大值(0,1−∣a−b)△pm∈△Pt−1ΦR:一般的卷积层;[⋅,⋅]:合并;
Experimental Results
i n p u t : ( x , y , z , r , △ t ) r : 强 度 ; △ t : 关 键 帧 的 时 间 间 隔 , r a n g e ( 0 , 0.45 ) c a t e g e r i e s : 10 ; X , Y , Z : [ − 50 , 50 ] ∗ [ − 50 , 50 ] ∗ [ − 5 , 3 ] p i l l a r 在 x − y 平 面 的 清 晰 度 : 0.25 m 2 ; P M P N e t 中 的 P 有 16384 , 从 25000 个 p i l l a r 中 采 样 的 , 每 个 p i l l a r 有 60 个 点 ; L = L ′ = 64 ; S = 3 ; 2 D b a c k b o n e : Z = 3 , C : ( 64 , 128 , 256 ) ; 最 后 的 输 出 为 ( 100 , 100 , 384 ) input: (x, y, z, r, \triangle t)\\ r: 强度;\\ \triangle t: 关键帧的时间间隔, range(0, 0.45)\\ categeries: 10;\\ X, Y, Z: [-50, 50]*[-50, 50]*[-5, 3]\\ pillar在x-y平面的清晰度:0.25m^2;\\ PMPNet中的P有16384,从25000个pillar中采样的,每个pillar有60个点;\\ L=L'=64;\\ S = 3;\\ 2D backbone: Z = 3, C :(64, 128, 256); 最后的输出为(100, 100, 384)\\ input:(x,y,z,r,△t)r:强度;△t:关键帧的时间间隔,range(0,0.45)categeries:10;X,Y,Z:[−50,50]∗[−50,50]∗[−5,3]pillar在x−y平面的清晰度:0.25m2;PMPNet中的P有16384,从25000个pillar中采样的,每个pillar有60个点;L=L′=64;S=3;2Dbackbone:Z=3,C:(64,128,256);最后的输出为(100,100,384)
输入:每0.5s非关键帧的叠加,有300,000点云。
PointPillars
三个阶段
- 将点云转换为稀疏伪图像的特征编码器网络;
- 利用2D卷积backbone将伪图像转换为高级表示;
- 检测头检测和回归3Dboxes;
Pointcloud to Pseudo-Image
- 点云在x-y平面上离散成一个均匀间隔的网格,形成一组具有|P|=B的柱P;
- 这种稀疏性是通过对每个样本§的非空柱数和每个柱(N)的点数施加限制来利用的,以创建一个密集的尺寸张量(D,P,N);
- 利用cnn-bn-relu转化为(C, P, N),之后再沿着channels方向取最大值,得到(C, P);
- 之后根据Pillar index将(C, P)的特征扩散为为(C, H, W)。
Backbone
Top-down network
Detection Head
Single Shot Detector (SSD) head detection
Losses
i
n
p
u
t
s
:
(
x
,
y
,
z
,
r
,
x
c
,
y
c
,
z
c
,
x
p
,
y
p
)
z
轴
不
设
限
制
;
inputs: (x, y, z, r, x_c, y_c, z_c, x_p, y_p)\\ z轴不设限制;
inputs:(x,y,z,r,xc,yc,zc,xp,yp)z轴不设限制;
An Empirical Study of Spatial Attention Mechanisms in Deep Networks
- 在transformer注意力模块中,查询敏感项,特别是查询和关键内容项,在自我注意中起着次要的作用。 但在编解码器注意中,查询和关键内容项至关重要。
- 虽然变形卷积只利用了基于查询内容和相对位置项的注意机制,但它在图像识别上的工作效率和有效性高于变压器注意中的对应者。
- 在self-attention中,查询内容&相对位置和关键内容的因素才是最重要的。
- 可变形的卷积和在Transformer attention中的key content only 的结合比单独的Transformer attention获得更高的准确度,而且较少的算力。