目标检测经典论文学习
文章平均质量分 57
zhSunw
xmu AI硕博连读——梦想是有“少一点功利的追逐,多一点不为什么的坚持”的勇气和毅力
展开
-
论文阅读:Boosting Single-Frame 3D Object Detection by Simulating Multi-Frame Point Clouds
Teacher使用多帧,studen使用单帧蒸馏原创 2023-01-28 19:19:54 · 264 阅读 · 0 评论 -
论文阅读:Boosting 3D Object Detection by Simulating Multimodality on Point Clouds
稠密(多模态、多帧)信息->稀疏(单模态点云,单帧)信息的知识蒸馏:模型在稠密信息中的精度高作teacher提升稀疏信息下的精度,具体包括4重蒸馏原创 2023-01-20 17:15:13 · 573 阅读 · 1 评论 -
ST3D++: Denoised Self-training for Unsupervised Domain Adaptation on 3D Object Detection
ST3D++: Denoised Self-training for Unsupervised Domain Adaptation on 3D Object Detection原创 2022-10-06 12:42:05 · 973 阅读 · 0 评论 -
CVPR2021:ST3D——Self-training for Unsupervised Domain Adaptation on 3D Object Detection详解
CVPR2021:ST3D——Self-training for Unsupervised Domain Adaptation on 3D Object Detection详解原创 2022-10-04 02:51:33 · 1404 阅读 · 0 评论 -
SCNet:Semantic Consistency Networks for 3D Object Detection
框架采用VoteNet和PointNet++作为pipeline.Semantic Voting:将语义信息也作为每个点投票(预测)的信息两个MLP分支分别完成正常VoteNet的投票(xyz坐标与feature特征)和Semantic Vote将每个点的两个分支预测结果相结合Loss Function设置超参数权重对各个任务loss进行加权Semantic Consistency Mechanism and Loss如上图所示,以每个BBox的中心为球心,设置半径为0.2m原创 2022-04-28 17:46:53 · 453 阅读 · 0 评论 -
TAMNet:A loss-balanced multi-task model for simultaneous detection and segmentation
框架采用SSD和FCN作为pipeline.Task-related Attention Module(TAM):同时考虑两个任务的特征利用注意力机制加权1.将两个分支的特征相加之后通过注意力模块(CNN)得到加权图2.用加权图对两个特征进行加权再与各自原特征相加得到最终特征公示表达:F表示之前的特征,M表示加权图,i、c分别表示空间下标和通道下标Optimization method大部分做法是手动设置权重W:本文提出了任务t在第i+1步的难度为:根据每个任务的难度定义奖励(权.原创 2022-04-28 17:45:08 · 278 阅读 · 0 评论 -
CVPR2022——A VERSATILE MULTI-VIEW FRAMEWORK
A VERSATILE MULTI-VIEW FRAMEWORK FOR LIDAR-BASED3D OBJECT DETECTION WITH GUIDANCE FROM PANOPTICSEGMENTATIONContribution:Keyknowledge:Cascade RV Feature Fusion Module:融合多级Range View特征Attention-based RV-BEV Feature Weighting Module:对RV-BEV两个特征图加权突出重要的特征值。C原创 2022-04-07 20:04:13 · 711 阅读 · 0 评论 -
CVPR2022——Not All Points Are Equal : IA-SSD
IA-SSDNot All Points Are Equal:IA-SSDMotivationContributionKeyknowledgeInstance-aware Downsampling StrategyContextual Instance Centroid PerceptionLossExperiment采样方法在KITII验证集上的对比不同的方法在KITTI测试集上的检测性能定量对比Not All Points Are Equal:IA-SSD写在前面:与最近读的RandLa-Net的原创 2022-03-31 02:38:13 · 5304 阅读 · 2 评论 -
SE-SSD
SE-SSDKey Knowledgeable:Teacher-Student SSDSE-SSD网络核心框架主要包括Teacher SSD和Student SSD两个部分。SSD由Voxelization、SPConvNet、BEVConvNet、MT-Head组成。Teacher SSD为Student SSD的训练提供soft target:不像groundtruth准确,唯一,过于死板,Teacher 预测的box产生更多信息,更利于student学习。同时Teacher和Stu.原创 2021-11-30 00:59:52 · 2851 阅读 · 0 评论 -
3DSSD
3DSSDvoxel-based methods:straightforward and efficient but loss information and encounter performance bottleneckPoint-based methods:achieve better performance but have two stage and inference time is usually intolerable首个不用FP layers 和 the refinement.原创 2021-11-26 02:59:17 · 1540 阅读 · 0 评论 -
PV-RCNN
PV-RCNNKey Knowledgeable:Point-based and Voxel-basedVoxel Set Abstraction (VSA)FPS采样n个关键点。对于每个关键点,分别在原始点云图fraw、3D稀疏卷积之后的多尺度特征图fpv、BEV投影的特征fbev上采用PointNet++的思想将一个半径范围的点视为一个集合(Voxel-based),获取点与点之间的邻域特征:并将一个区域内的特征聚合(Point-based):得到[fraw,fpv,fbev].原创 2021-11-26 02:56:25 · 1707 阅读 · 0 评论 -
PointPillars
PointPillars对比:现有的一些研究喜欢将不规则、稀疏的点云数据按照以下两种方式进行处理,然后引入RPN层进行3D Bbox Proposal,这两种方法为:1)将点云数据划纳入一个个体素(Voxel)中,构成规则的、密集分布的体素集。常见的有VoxelNet和SECOND,这在之前的文章中已经解析过了;(3D卷积的高花费)2)从俯视角度将点云数据进行处理,获得一个个伪图片的数据。常见的模型有MV3D和AVOD。(two-stage detection pipelines,无法端到端).原创 2021-11-19 23:46:46 · 217 阅读 · 0 评论 -
PointRCNN
PointRCNNKey Knowledgeable:Foreground point segmentation.利用PointNet++网络学习语义特征,实现前景与背景分割。并将语义特征与前景点信息传递Bin-based 3D bounding box generation.每个前景点以自己为中心在X,Z平面上建立刻度为δ,范围为[-S,S]的坐标,预测3DBox的刻度数bin(整数)与偏移量res(小数),将原本的偏移量回归学习任务转为了bin的分类任务+偏移量的回归任务。采用这.原创 2021-11-19 23:46:37 · 107 阅读 · 0 评论 -
VoxelNet
VoxelNetKey Knowledgeable:Feature Learning Network:Voxel Partition and Grouping将D×W×H的空间按照大小为划分为逐个Voxel,处于一个Voxel的point分为一组。Random Sampling选取一个阈值T,将一个Voxel内多余的点删去(减少计算量与避免Voxel点分布的过分不均)Stacked Voxel Feature Encoding将一个Voxel内的point进行相对位置编码:(x,.原创 2021-11-19 23:46:53 · 85 阅读 · 0 评论 -
PVCNN
PVCNNKey Knowledgeable:Voxel-Based Feature Aggregation:尺度归一化、点云体素化、体素卷积、反体素化(三线性插值上采样)得到Voxel-Based FeaturePoint-Based Feature Transformation:参考PointNet对各个点使用MLP提取特征,得到更各个点的细粒度特征。Feature Fusion将两个特征直接进行相加,得到最终的特征。Conclusion:Voxel-Based Models:.原创 2021-11-18 15:50:58 · 514 阅读 · 0 评论 -
PointCNN
PointCNNKey Knowledgeable:Hierarchical Convolution:参考图像卷积,进行多次卷积,提取深层信息。χ-Conv Operator:根据邻近点坐标信息进行相对位置编码,分别使用MLP学习特征信息F与变换矩阵χ。使用变换矩阵χ变换特征信息矩阵F得到Fχ,最后再对Fχ进行卷积。Tips:使用采样膨胀D倍邻近点扩大特征的感受野,利于网络训练。3.χ-Conv dilation rate使用采样膨胀D倍邻近点扩大特征的感受野,在KD个邻近点内采样K.原创 2021-11-18 15:49:40 · 167 阅读 · 0 评论 -
PointNet++
PointNet++Key Knowledgeable:Set abstraction:Sampling layer:根据曼哈顿距离进行farthest point sampling (FPS),选取N’个中心点,输入N个点的点集,输出N’个中心点。Grouping layer:对每个中心点选取K个最近的点作为一个点集,输入N’个中心点,输出N’×K个点,每个点有d+C个信息(坐标信息和特征信息)PointNet layer对一个分组的坐标信息进行变换,捕获局部区域内的点对点关系:.原创 2021-11-18 15:48:04 · 119 阅读 · 0 评论 -
PointNet
PointNetKey Knowledgeable:Key Knowledgeable:点云数据的三个特征:无序点与点之间的空间关系空间转换不变性针对上诉三个特征设计网络框架:使用maxpooling对称函数使模型对输入排列不变维护无序性对分割任务,将全局特征和之前学习到的各点云的局部特征进行串联维护点与点之间的空间关系T-Net学习到的转换矩阵相乘来对齐,维护空间转换不变性。Shared-mlp:模型使用MLP提取特征:使用mlp提取单点特征,对所有点进行相同的.原创 2021-11-18 15:45:47 · 86 阅读 · 0 评论 -
CenterNet
CenterNetKey Knowledgeable:1.生成Heatmap输入512512的图片,对该图像/4的下采样操作,获得一个128128的图计算原图groundtruth的box中心的缩小图坐标根据目标Box大小来计算高斯圆的半径R在128*128大小的Heatmap图上面,以point为中心点,半径为R通过高斯核函数计算:其余点置为02.预测gtbox中心坐标放缩的误差offsets与框的宽高sizes对于生成的Heatmap图,使用3×3最大池化筛选,再挑选100个峰值,.原创 2021-11-18 15:43:35 · 110 阅读 · 0 评论 -
YOLOv3
YOLOv3YOLOv3仅使用卷积层,使其成为一个全卷积网络(FCN),提出一个新的特征提取网络:Darknet-53。Key Knowledgeable:输入416×416图像,先使用DBL(Conv+BN+Leaky RELU)和1、2、8、8、4个残差块提取特征,在每层之间进行2倍下采样(步长为2的卷积),最后得到3个scale的52×52、28×28、13×13的特征图(Stride分别为32、16、8)每个scale的特征图进行预测:对13×13的特征图的每一个cell预测3个b.原创 2021-11-18 15:41:50 · 94 阅读 · 0 评论 -
SingleSD
SSDKey Knowledgeable:Multi-scale feature maps for detection:在 base network之后,不断进行卷积生成不同scale的feature maps(越来越小,减少计算量与空间需求同时保证特征平移性)Convolutional predictors for detection:对于每个feature map都使用适应大小的kernel进行卷积获取信息(包括每个类别的概率与x,y,w,h的偏移量)Default boxes and.原创 2021-11-18 15:38:43 · 159 阅读 · 0 评论 -
Faster R-CNN
Faster R-CNNKey Knowledgeable:网络框架大致与Fast R-CNN相似,就是通过将RPN加入网络框架中使得不需要提前通过SS选择Region Proposals作为输入。后续的ROIPooling、FC、Multi-task都与Fast R-CNN一致。RPN:在CNN提取的特征图上不断滑动出n×n的窗口,对于每一个窗口进行压缩对当前窗口的x,y,w,h回归出k个anchor,每个anchor包含两个信息:2个二分类(即是否为目标)得分和4个编码过后的位置信息(.原创 2021-11-18 15:35:31 · 56 阅读 · 0 评论 -
Fast R-CNN
Fast R-CNNKey Knowledgeable:ROI Pooling:使用Max Pooling将不同ROI的特征转换为相同维度的特征向量。Multi-task Loss Function:3.使用Fast R-CNN对网络进行的修改:用RoI pooling layer取代网络的最后一个池化层;最后一个FC层和softmax替换成Fast R-CNN框架图介绍的两个FC层;输入两组数据到网络:一组图片和每一个图片的一组RoIs;Contributions:Hig.原创 2021-11-18 15:30:54 · 78 阅读 · 0 评论 -
R-CNN
R-CNN采用Selective Search 算法生产~2k类别独立的Region ProposalsWarp Region Proposals,作为AlexNet输入进行特征提取用各个类的SVM 做类别预测,使用NMSMore Rerearch:迁移学习:R-CNN 在 ImageNet上先进行预训练,然后利用成熟的权重参数在 PASCAL VOC目标数据集上进行 fine-tune根据目标检测分析工具进行误差分析,进行Bounding box regression提高定位准确率.原创 2021-11-18 15:27:26 · 73 阅读 · 0 评论