Clichong
这个作者很懒,什么都没留下…
展开
-
论文速读系列五:SASA、BtcDet、CG-SSD、Multi-view framework、Ret3D
在2D目标检测中,有很多工作证明过**目标间的关联性**可以提升检测性能。同理,作者认为,在3D目标检测中,目标间的关联性也可以提升检测性能。然而,**现有的lidar-based检测器却鲜有探索目标间的关联性**,大多数检测器都是在**特征层面隐式**的研究目标关联性带来的影响。提出了作者研究2种关联性对3D目标检测的影响:intra-frame relations 和 inter-frame relations。- **intra-frame**:对于同一帧点云,利用不同目标间的空间距离(预测的目标位原创 2022-12-10 21:35:42 · 732 阅读 · 0 评论 -
论文速读系列四:Cross-Modality、CT3D、Pyramid R-CNN、VoTr、AFDetV2
**为什么需要second stage**?根据之前工作的经验,second stage可以提升网络性能,原因有以下2个:1)原始点特征可以恢复损失的位置信息;2)分类和边界框回归是通过2个独立的分支完成的,会带来不对齐的问题。但是,近来有工作证明,就算没有原始点云信息做second stage的refine,依靠voxel特征依然可以取得不错的性能。通过大量的实验,**作者发现first stage已经足以得到精确的bbox定位,second stage的贡献主要源于分类得分的提高,这一发现也和分类-定原创 2022-12-10 21:21:54 · 708 阅读 · 0 评论 -
论文阅读笔记 | 三维目标检测——PV-RCNN++算法
PV-RCNN++的基本原理延续这PV-RCNN:基于体素的策略可以更有效地编码多尺度特征,并从大规模点云生成高质量的3d候选框;而基于点的策略可以保留精确的位置信息,并具有灵活的感受野,用于细粒度的建议细化。在PV-RCNN的基础上,PV-RCNN++对其进行了改进。改进的第一点就是关键点的采样,这里提出了分区关键点采样策略(sectorized proposal-centric keypoint sampling strategy),要比原始的距离最远点采样更加高效(D-FPS距离最远点采样的具有二原创 2022-12-08 17:46:09 · 2089 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——CenterPoint算法
与2d检测相比,3d检测面临一些特别的挑战:1)点云的稀疏性导致大部分空间为空;2)输出需要产生带方向的3d框,这不能与坐标系进行很好的对齐;3)3d目标的尺寸范围变化比较大。也很好理解,**在一个3d框的自由度比较高,具有方向的属性,在空间上难以和坐标轴对齐**,2d的axis-aligned的方法对3d检测也就不太适用。为此,**CenterPoint的核心思想就是将框预测改为中心点预测来避免这个问题的出现**。预测目标框的中心点避免了方向属性,减少了搜索空间;其次对于中心点的方法可以简化一些例如目原创 2022-12-08 17:34:03 · 4099 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——PV-RCNN算法
基于voxel(paper中提到的是grid-based)的方法计算效率更高,但不可避免的信息损失降低了细粒度定位精度;而基于point的方法计算成本更高,但是通过PointNet++中的SA层(set abstraction layer)可以实现更大的感受野(这种说法是首次提出的)。PV-RCNN的想法也是同时结合这两种方法的优势,取其所长,利用voxel-based操作进行有效的多尺度信息编码,生成高质量的3d候选框;同时利用改进的set abstraction模块操作保留精确的位置信息和灵活的感受原创 2022-12-08 17:13:58 · 1549 阅读 · 0 评论 -
论文速度系列三:SA-SSD、CIA-SSD、SE-SSD
自从GoogleNet提出以来,一直觉得辅助任务是个好东西。利用了两个辅助任务让主干网络更加关注结构信息,这让我联想到了之前做推荐系统的跨域ctr估计。也是利用源域数据与目标域数据进行一个联合训练来优化结果。在论文的创新上,原创 2022-12-08 16:38:25 · 1449 阅读 · 0 评论 -
论文速读Backbone系列一:点云Transformer结合、PointNet++改进、点云卷积核设计
如有错误,恳请指出。对一些经典论文进行快速思路整理,以下内容主要关注的是3d点云的backbone设计,包括transformer的应用,卷积核的设计,PointNet++网络的改进。1)提出Offset Atention,在原本的self-attention中的LBR(Fa)改为LBR(Fin-Fa),同时魔改了norm方法。其中这里的Fin是原始点特征,Fa是进行self-attention变换之后的特征2)提出Neighbor Embedding,利用attention可以捕获全局特征但是缺少局部特原创 2022-12-07 22:28:53 · 2776 阅读 · 0 评论 -
论文速读系列二:YOLO3D、PIXOR、HDNET、Voxel-FPN、Fast Point RCNN
如有错误,恳请指出。参考网上资料,对一些经典论文进行快速思路整理paper:《YOLO3D: End-to-end real-time 3D OrientedObject Bounding Box Detection from LiDARPoint Cloud》思路:1)将点云进行网格化投影到bev视图上,构建最大高度特征图与密度特征图(参考MV3D),所有原始特征channels=22)与2d检测(yolov5)使用聚类设计先验框的尺寸不同,yolo3d这里使用每个类别标注框的平均值作为3d先验框的尺原创 2022-12-07 22:14:35 · 1202 阅读 · 0 评论 -
论文速读系列一:VoteNet、CBGS、BirdNet、StarNet、STD
如有错误,恳请指出。参考网上资料,对一些经典论文进行快速思路整理参考网上资料,对一些经典论文进行快速思路整理paper:《Deep Hough Voting for 3D Object Detection in Point Clouds》结构图:思路:利用投票的思路先获取物体中心,再进行后续方向尺寸等信息预测对于点云空间的每个点都可以预测其到某个物体中心的相对距离,这个相对距离可以通过标注信息获取进行有监督训练。那么如过某个区域的大部分点其预测的中心都比较接近,这个中心大概率是某个物体的中心。也就是说,原创 2022-12-07 22:03:58 · 1181 阅读 · 0 评论 -
论文阅读笔记 | 三维目标检测——VoxelRCNN算法
现有很多的point-based检测器获得比较好的效果,精确度要比voxel-based检测器要好,为此不少观点认为原始点云中的精确位置信息对于精确的目标定位是至关重要的。VoxelRCNN的动机就是能否保持voxel-based方法速度优势下,获取与point-based方法相当的性能,希望在准确性和效率之间取得平衡。作者通过实验分析,发现现有voxel-based方法的主要缺点是将3d特征体转换为BEV表示,而从未恢复3D结构上下文,这样就找到了需要提高的方向。对于voxel-based的方法,BEV表原创 2022-11-25 22:06:38 · 1879 阅读 · 4 评论 -
论文阅读笔记 | 三维目标检测——PartA2算法
PointRCNN中发现了基于点云的3d目标中相比2d检测有一个与生俱来的优势,就是3d的标注框不仅提供了检测的目标框,同时还提供语义分割的前景点(也就是目标框中的点)。**在PartA2中,作者进一步发现了我们不仅可以获得需要检测的标注框及其包括的前景点,我们还可以获得每个前景点在标注框中的空间分布信息,或者说是每个前景点在标注框内的相对位置信息**。在现有的研究下,其实并没有完全的将3d标注框的信息完全利用上,这种前景点在标注框的分布信息是有利于提高3d检测网络的性能的。原创 2022-11-25 21:57:26 · 1619 阅读 · 0 评论 -
论文阅读笔记 | 三维目标检测——PointPillars算法
PointPillars的出发点同样与SECOND一样,希望改进VoxelNet所使用3d卷积计算量太大推理速度太慢的问题。鉴于此,SECOND提出了稀疏卷积来提高普通3d卷积的推理速度,但是任然无法避免3d卷积的庞大计算量,没有从根本上解决这个问题,仍然需要使用计算昂贵的3d卷积操作。这个问题的核心本质是SECOND与VoxelNet将点云量化为三维空间上的一个个Voxel,所以3d卷积是无法避免的。为了从根本上解决3d卷积的问题,PointPillars提出了一种新颖的量化方法(paper中写到是e原创 2022-11-25 21:36:57 · 1464 阅读 · 3 评论 -
论文阅读笔记 | 三维目标检测——SECOND算法
鉴于VoxelNet等3d检测算法中使用的3d卷积会导致计算量大且推理速度慢的问题,所以这里提出了一种稀疏卷积(sparse convolution method)。在介绍VoxelNet中,也提及到由于其损失结构采用直接回归的方式,虽然简洁但可能会限制其网络性能,在此基础上,SECOND提出了一个新的损失函数与数据增强策略来对其进行改进。原创 2022-11-25 21:31:47 · 2502 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——VoxelNet算法
以往的3d检测器都难免利用了手工设计特征(hand-crafted),不够智能不能实现end-to-end地自动提取特征,而如果利用全部点云输入,处理点云可能搞到100k个点的数据可能会带来极大的计算量(其实这里是可以对输入进行采样的,不过对于一个大场景来说数据点确实有点大,这时候对点云量化确实是一个比较好的选择,具体需要结合特定的场景和数据量)。为此,VoxelNet提出一个端对端的3d检测器,对点云数据进行量化,避免复杂场景带来的高计算。具体来说,VoxelNet将点云划分为等间距的3D体素,通过堆原创 2022-11-25 21:23:32 · 1118 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——Complex-YOLO算法
对于之前的网络结构来说,尽管精度很高,但是或多或少都存在rpn接口来获取高质量proposal来提高精度,既然是Two-stage网络必然会导致速度的减少。之前的sota工作基本上fps都在10以下,而complex-yolo的目的就是在精度和速度上追求一个权衡,将kitti数据集推广到预测8个类,面向真实复杂低延迟搞精度的实时业务场景。实际上,yolo系列的算法均是追求速度和精度上的权衡,追求高推理速度的实时性性能,而这也是自动驾驶所需要的。原创 2022-11-18 11:40:57 · 1511 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——AVOD算法
AVOD同样是一个two-stage(使用了RPN提取候选框)、anchor-based网络结构。获得较高的召回率对RPN网络来说是比较重要的,但对于稀疏的较低分辨率的输入来说(比如前视图和鸟瞰图)不足以让RPN输出高质量的候选框,且导致低召回率,这会在第二个阶段带来无法逆转的结构。基于这个考虑,AVOD设计了一个新颖的RPN结构可以通过在高分辨率特征图上进行多模态特征融合(将来自RGB图像和BEV的全分辨率特征图为输入),来提高小目标的定位精度。原创 2022-11-18 11:36:58 · 3328 阅读 · 5 评论 -
论文阅读笔记 | 三维目标检测——F-PointNet算法
基与鸟瞰图投影的方法(类似MV3D)会在垂直方向上存在物体的遮挡,难以推广到其他更加广泛的真实场景。且现有对深度信息的提取也只限于二维特征图中(一般构造成二维的深度特征图),这样的量化表征方式会模糊自然3d对象的模式。现有工作很少直接对点云数据进行直接处理,此时出现了两个直接基于点云提取特征的结构:PointNet与PointNet++,如何利用这两个新颖结构进行3d目标检测也是难点之一。F-PointNet的一大创新是利用点云数据来表示深度信息,而不是映射在二维的深度通道上。简单来说,对来自RGB图像原创 2022-11-18 11:31:38 · 2406 阅读 · 0 评论 -
论文阅读笔记 | 三维目标检测——MV3D算法
激光雷达可以提供物体的深度信息,而摄像头可以提供物体的细节语义信息,利用Lidar+Image两种模态理应可以获得更好的检测效果。一般来说,基于LIDAR点云的方法通常可以获得更准确的3D位置,而基于图像的方法在2D框评估方面具有更高的准确性,如何有效的利用来自与Lidar和Imgae两种模态获得更好的3d检测效果设计模型结构是MV3D的出发点,并启发于FractalNet和Deeply-Fused Net两个工作进行网络设计。此外,在Related Work中有些比较有趣的工作,比如利用体素和点云的多原创 2022-11-18 11:27:50 · 1057 阅读 · 0 评论 -
论文阅读笔记 | 三维目标检测——VeloFCN算法
通过卷积核(4x2)下采样提取全局特征再进行上采样(4x2)与相同尺寸的特征图进行拼接,这样可以有效提高小目标检测率(这里VeloFCN没有说明具体的维度信息),最后再进行一个上采样分别为分类和回归构建与原尺寸(point map)一致的特征图,分别进行分类任务和回归任务。反之,则较大,以增强对远处目标的检测能力)。此外,在具体回归标注框过程中,对每个点云需要预测的ground truth的某个角点是:cp’=R(cp-p),其中p表示当前所在点,cp是标注框角点,cp’表示更改的标注框角点。原创 2022-11-18 11:22:13 · 1060 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——3DSSD
两阶段的3d检测网络一般包含upsample layer进行特征回传进一步提取全局point-wise特征,以及需要一个修正阶段(refinement stage)来对候选框进行微调,这两个步骤极大的耗费时间,同时让网络结构变得复杂。3D-SSD的目的就是为了进一步减少推理时间,抛弃这种PF layers以及refinement stage,只利用backbone进行下采样的特征提取来完成检测任务。此外,作为one-stage的检测算法,采用anchor-free+centerness的方式,3D-SSD极原创 2022-11-15 10:28:48 · 1044 阅读 · 2 评论 -
论文阅读笔记 | 三维目标检测——PointRCNN
在PointRCNN诞生之前,对于点云的物体检测基本上是利用鸟瞰图(多视图的投影)或者是量化成Voxel再进行3D卷积的方法实现,这样量化的操作其实相比直接利用点云输入是有部分信息的丢失,而且3D卷积的计算量也较大。基于这个出发点,PointRCNN是第一个比较work完全以点云数据为输入的3d检测算法。以点云为输入就必然需要面对点云无序性等问题,但是也有其中的优势。相比于2d目标检测的ground truth是有可能重叠的,在一个3维空间中的object之间是彼此独立不可能重叠,也就是说对于点云数据的原创 2022-11-15 10:24:46 · 1991 阅读 · 1 评论 -
论文阅读笔记 | 三维目标检测——PointNet++
PointNet作为直接以点云格式数据为输入的开创性网络,还存在需要改进的地方。曾经提及到,PointNet考虑到了全局性特征的方向拼接处理,但是忽视了点云局部特征的捕获。以CNN为例,通过递归性的卷积提取图像的局部特征,以实现在深层次中获得较大的感受野。那么,对于点云数据来说,也可以进行递归性提取局部特征,捕获点云的细粒度特征。为此PointNet++的主要思想就是,对点云继续局部划分然后进行局部性特征提取,随后再进行局部划分点云数据再对每个部分进行特征提取,从而实现层级性的特征提取操作。不断重复这个过程原创 2022-11-15 10:19:44 · 1716 阅读 · 4 评论 -
论文阅读笔记 | 三维目标检测——PointNet
同时,在后续的提取特征中,同样对特征进行规范空间中的对齐。操作方法类似,也是利用提取后的特征通过T-Net获得仿射矩阵再作用到特征上实现变换,不过由于特征的维度一般比较大,难以优化,所以训练会添加一个正则化项,将特征的仿射矩阵转化为一个正交矩阵,同时正交矩阵是不会在输入中丢失信息的。这里PointNet用了很简单的方法,就是把这里获得的全局特征拼接到每个点的局部特征上,完成了局部特征与全局特征的结合,后续再使用一个共享参数的MLP来对这个局部和全局拼接的特征进行降维,再进行后续分割任务,对每个点进行分类。原创 2022-11-15 10:14:10 · 898 阅读 · 1 评论