3D稀疏卷积
论文地址:https://arxiv.org/pdf/1711.10275.pdf
论文 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks
摘要
卷积网络是分析图像、视频和三维形状等时空数据的重要基础。虽然其中一些数据自然密集(例如照片),但许多其他数据源本质上是稀疏的。示例包括使用激光雷达扫描仪或RGB-D相机获得的3D点云。卷积网络的标准“密集”实现在应用于此类稀疏数据时效率非常低。我们引入了新的稀疏卷积运算,旨在更有效地处理空间稀疏数据,并使用它们开发空间稀疏卷积网络。我们展示了所得到的子流形稀疏卷积网络(SSCNs)模型在涉及3D点云语义分割的两项任务上的强大性能。特别是,我们的模型在最近一次语义切分竞赛的测试集上的表现优于所有现有的最新技术。
简介
卷积网络(ConvNet)是一种最先进的方法,适用于涉及空间和/或时间结构数据分析的各种任务,如照片、视频或三维表面模型。虽然此类数据通常包含人口密集的(2D或3D)网格,但其他数据集自然稀疏。例如,笔迹是由二维空间中的一维线条组成的,RGB-D相机拍摄的图片是三维点云,多边形网格模型在三维空间中形成二维曲面。
维度灾难尤其适用于生活在具有三个或更多维度的网格上的数据:网格上的点数随维度呈指数增长。在这种情况下,尽可能利用数据稀疏性以减少数据处理所需的计算资源变得越来越重要。实际上,在分析人烟稀少的4D结构的RGB-D视频时,利用稀疏性是至关重要的。
传统的卷积网络实现针对密集网格上的数据进行了优化,无法有效处理稀疏数据。最近,已经提出了一些卷积网络实现,这些实现是为有效处理稀疏数据而定制的[4,18,3]。从数学上讲,其中一些实现与常规卷积网络相同,但它们在触发器和/或内存方面需要更少的计算资源[4,3]。之前的工作使用了im2col操作的稀疏版本,该操作将计算和存储限制在“活动”站点[4],或者使用[22]中的投票算法将不必要的乘法减为零[3]。八元网络[18]修改卷积算子,在感

最低0.47元/天 解锁文章
1639

被折叠的 条评论
为什么被折叠?



