摘要 实例分离模块:用实例特定的质心位置来补充位置不变性语义特征,以帮助分离不同的实例;语义融合模块:基于注意力机制,将注意图编码到实例嵌入空间中,并将注意图应用到语义特征空间中进行语义信息融合。
整体框架
该工作采用三维点云作为输入,并预测每个点的实例标签和语义标签。网络包含两个并行的分支:一个用于实例分割,另一个用于语义分割。在这两个分支之间,提出了两个新的模块:实例分离模块和语义融合模块,使语义特征和实例特征相互受益。
结构概述
输入点云 V ∈ R n × d V \in \mathbb R^{n \times d} V∈Rn×d,特征编码器提取点的高等级特征 F ∈ R n × f F \in \mathbb R^{n \times f} F∈Rn×f,然后两个并行的分支接收 F F F,进行语义分割和实例分割。语义分割解码器将 F F F 映射到语义特征 S ∈ R n × f S \in \mathbb R^{n \times f} S∈Rn×f,最后利用两个独立的全连接层(FC)和一个SoftMax层预测每个点属于语义标签 c c c的概率 P ∈ R n × c P \in \mathbb R^{n \times c} P∈Rn×c。实例分割解码器将 F F F映射到实例特征 I ∈ R n × f I \in \mathbb R^{n \times f} I∈Rn×f,下面两个FC层输出每个点的实例嵌入特征 E ∈ R n × e E \in \mathbb R^{n \times e} E∈Rn×e。
为了建立两个分支之间的合作关系,设计了两个模块:实例分离模块(如图中紫色所示)和语义融合模块(如图中蓝色所示)。实例分离模块预测特定于实例的质心 O ∈ R n × 3 O \in \mathbb R^{n \times 3} O∈Rn×3。 O O O 与 S S S 连接起来,用来创建语义感知的实例特征 I ′ ∈ R n × f I' \in \mathbb R^{n \times f} I′∈R