Enhancing 3D-2D Representations for Convolution Occupancy Networks论文笔记

流木追风

已于 2023-03-15 09:53:29 修改

阅读量269

点赞数

分类专栏：论文笔记文章标签：论文阅读深度学习计算机视觉

于 2023-03-15 09:46:53 首次发布

本文链接：https://blog.csdn.net/weixin_45625942/article/details/129536090

版权

论文笔记专栏收录该内容

8 篇文章

订阅专栏

Motivation&Contribution

如何更好地表示ConvONet的3D特征仍然是一个悬而未决的问题。我们提出通过增强3D位置信息和3D-2D相关性来改进ConvONet的表示。我们提出了一种位置感知转换器(PAT)架构，该架构将自适应多尺度位置编码(AMSPE)集成到自注意计算中，通过以多层次的方式利用全局和局部位置聚合来增强3D位置信息，同时，由于将3D特征投影到2D平面进行卷积，不可避免地会引入模糊或噪声表示。我们提出了一个3D相关引导增强(CGE)网络来弥合3D和2D形状表示之间的差距。具体来说，我们利用PAT投影的3D相关性作为结构指导，然后计算3D相关性引导注意(CGAs)来增强2D空间中最具代表性的特征

Method

模型概览

具有自适应多尺度位置编码的位置感知Transformer

我们将输入点云P发送给PAT, PAT通过几个自注意模块学习点之间的相关性。考虑到位置编码(PE)的重要性，提出了一种自适应多尺度位置编码(AMSPE)模块，对位置信息进行多级编码。我们首先用最远点抽样算法（farthest point sampling algorithm, FPS）对不同的水平点集进行抽样。接下来，对每个点集层，通过K近邻算法（K-Nearest Neighbors，KNN）、Group和Align提取局部信息，得到融合特征Epos作为位置编码。具体来说，我们对点云进行MLP处理，利用K邻近算法收集每个点上k个相邻点的特征，得到多层次的局部位置特征ei。为了融合不同级别的局部特征表示ei，我们建议对级别i∈{2,3}插值ei，使它们的特征数和位置与e1一致。最后，将各层Ei的对齐特征融合为自注意模块的位置编码Epos。在得到位置编码的Epos后，将点云和Epos输入到点自注意(Point Self-Attention，PSA)模块中。我们通过堆叠4个PSA模块来构建位置感知Transformer(PAT)。CBR表示Convolution-BatchNorm-ReLu操作。

3D相关引导增强网络

为了利用二维卷积的平移不变性，我们通过正交投影和双线性插值(orthogonal projection and bilinear interpolation，OPBI)从处理后的点云中获得分辨率为r的三个平面特征(Fx, Fy, Fz)。然后利用具有共享参数的U-Net[8]提取平面特征。在我们的PAT模块中，每一次自注意不仅增强了点云的表示，而且还通过函数学习了点云内部的相关性，因此，我们通过注意地图学习三维相关引导注意(3D Correlation-Guided Attentions，CGAs)来增强投影的二维特征表示。我们使用PAT最后一次自注意产生的A4作为三维相关性的指导。