【点云系列】Point-Voxel CNN for Efficient 3D Deep Learning

最新推荐文章于 2025-03-12 18:55:08 发布

^_^ 晅菲

最新推荐文章于 2025-03-12 18:55:08 发布

阅读量1.9k

点赞数

分类专栏：点云类文章标签：深度学习 cnn 3d

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43882112/article/details/124542512

版权

本文介绍了Point-Voxel CNN（PVCNN）结构，它结合点云和体素的优势，解决了Voxel-based方法内存消耗高和Point-based方法内存访问速度慢的问题。PVCNN通过点分支提取全局特征，体素分支提取局部特征，并通过正则化、体素化、特征聚合和去体素化等步骤实现高效3D卷积。实验表明，PVCNN在部件分割、场景分割和目标检测等方面表现出优越性能，同时在内存使用和速度上优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. 概要
2. 动机
3.方法
4. 实验及效果
5. 思考
6. 参考

好文不嫌晚，思想最主要，Trade-off，不变的宗旨。

1. 概要

会议：NIPS19 spotlight
论文：https://arxiv.org/abs/1907.03739
机构：MIT &上交
方法：PointCloud + Voxel 的表达= Point-Voxel融合的表达
代码：https://github.com/mit-han-lab/pvcnn
讲解：https://www.bilibili.com/video/av87529356

2. 动机

Voxel-based的点云处理方法：

优点：具有良好的内存存储性（有序存储、方便访问）
缺点：需要较高分辨率，消耗较多GPU内存，如图2（a）所示。
这主要是由于体素信息所需分辨率越高时，需要的计算成本和内存需求就越高。例如：输入尺寸 $64 \times 64 \times 64$ ，Batch size大小为 $16$ 时，所需要的GPU内存>10G

Point-based点云处理方法：

优点：GPU内存更低
缺点：需要较多随机内存，且容易引起存储体冲突（Bank conflicts），这会大幅降低访问速度，如图1（b）。且考虑到硬件因素，内存的操作比算术做做代价更大，如图1（a）。
这是由于点是随机分布在整个三维空间的，所需需要较多随机内存访问，而这种随机内存方法效率非常低。例如PointNet++里的邻居聚合就需要复制一整份点云，导致内存消耗 $o(n^2)$ ，还有一部分来源于动态内核计算，这是由于相对位置的不固定引入的，如图2（b）所示。

总的来说，就是voxel占内存，而Point则花费了大量时间在内存读取和kernel生成上。
所以，为了解决Voxel-based和Point-based存在的问题，提出了Point-Voxel CNN（PVCNN）结构。其优势在于：
利用点云的稀疏表示减少内存占用，比Point-based最先进方法快7倍速
利用体素的卷积获得连续内存表示，比baseline内存消耗少10倍

3.方法

整体的框架如下图所示：包含了两个分支：Point分支+Voxel分支，核心部分在于如何将voxel的特征最后嵌入并融合到点云当中。
在这里插入图片描述

3.1 Point分支

目的：提取全局特征
做法：常用MLP，类似PointNet结构。

3.2 Voxel分支

目的：提取局部特征
步骤：1. 正则化；2. 体素化；3. 特征聚合； 4. 去体素化；

3.2.1 正则化（Normalization）

目的：针对点云坐标做一个规范化处理（只针对坐标处理，不针对特征），范围在[0,1]内。为后续的体素化做好准备。
将点坐标记做： $p_k$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。