3D目标检测
文章平均质量分 52
williamyi96
PhD Student on Machine Learning, Optimization, Federated Learning, and Data-Efficient Learning.
展开
-
pooling 与 unpooling 深度解析
pooling 和 unpooling这两种具体实现方式对应到神经网络的技术上就是downsampling和unsampling。两者在神经网络的系列方法中都使用较多,下面将从总体上分析两者的作用。下采样(downsampling)下采样是神经网络设计的必要方法,其主要作用是浓缩图像,减少运算量;另外一方面是扩大特征像素点对应的感知野,忽略掉一些细微的噪声信息,取得更好的检测等任务的效果。上采样(u原创 2017-08-24 15:59:46 · 3756 阅读 · 1 评论 -
3DOP -- 源代码结构
通过3DOP项目的主页,我们可以找到通往多伦多大学的项目源代码的链接。不知是处于什么目的,该代码是以压缩包而不是github的方式给出的。通过下载之后,我们可以看到指导说明为:3DOP_code_cuDNNv3 and v5由于cuDNN 3版本和cuDNN5的版本上有一定实现差异,因此该代码兼容了上述两个版本。下面仅针对cuDNN v5 来进行代码分析。## 3D Object Proposal原创 2017-09-25 17:45:33 · 1779 阅读 · 4 评论 -
基于源码的Faster R-CNN训练总体流程梳理
之前的文章中对于Faster R-CNN的总体流程进行了梳理,详情参见这里。本篇文章将要以源码中的结构为基础,对于训练的整体流程进行梳理,以便后续源码的阅读。首先我们要明确的是,实际的Faster R-CNN中训练分为6个步骤:第一次训练RPN网络,对应源码中的stage1_rpn_train.pt利用步骤1训练好的RPN网络,收集proposals,对应rpn_test.pt第一次原创 2017-08-27 22:53:18 · 709 阅读 · 0 评论 -
Anaconda环境基本配置
python在机器学习领域的重要性日渐提升,但是其包管理以及python不同版本之间存在的不兼容性问题着实让人头疼。使用虚拟环境来进行包管理以及python不同版本之间的管理重要性则不言而喻了,本人试过了docker也试过了anaconda,相比较而言anaconda更为好用(个人观点,不喜勿喷)。接下来,将对anaconda环境下需要的各种包做一个基本的小结。安装anaconda首先下载Anaco原创 2017-10-28 17:12:06 · 1847 阅读 · 0 评论 -
[论文解读] 3DOP: 3D Object Proposals using Stereo Imagery for Accurate Object Class Detection
基本介绍3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法,其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15,出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好,且远远达不到实时性,因此其处理一张图片的时间达到了4.0s。以下文章的介绍将主要依据资料更为完成的PAMI17来分析。总体结构如下则是该方法的总体流程:其流原创 2017-09-25 15:51:04 · 5312 阅读 · 0 评论 -
FCN
转载自: http://blog.csdn.net/taigw/article/details/51401448在上述原文的基础上结合自己理解做出了部分修改。从图像分类到图像分割卷积神经网络(CNN)自2012年以来,在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一转载 2017-08-19 19:35:16 · 19936 阅读 · 0 评论 -
Bounding-box Regression深度解析
在R-CNN以及之后的系列文章中,都有Bounding-box Regression的使用,甚至到了MV3D等等的3D Bounding-box Regression, 其思想都是来源于最基础的Bb Regression的。我将从以下几个角度主要结合自己的理解来谈一谈Bounding-box Regression. 首先,讲一下bounding-box regression使用的动机及其解决的问题,原创 2017-08-24 15:51:17 · 6058 阅读 · 0 评论 -
Faster R-CNN(~ RPN + Fast R-CNN)
Faster R-CNN是一个真正意义上的端对端的目标检测模型,总体实现方式继承自RCNN, Fast RCNN, 而最大的改进是废除了上述两者的Selective Search 算法,同时也是其实现端对端的保证。论文中说,如果简单地在CNN前面加上一个专门提取proposal的网络显得不够优雅,所以最终把region proposal 提取和 Fast R-CNN部分融合进了一个网络模型,也就是区原创 2017-08-18 22:48:49 · 3906 阅读 · 0 评论 -
[论文解读]Multi-View 3D Object Detection Network for Autonomous Driving
问题引入在无人驾驶场景中,物体的3D检测(或者说是bounding-box)的重要性不言而喻。从2D检测到3D检测,主要的难点是提取深度信息,因此总体上可以将其分为四种,分别为:基于单目图像(Mono)基于双目图像(Stereo)基于雷达(LIDAR)基于融合网络这篇论文就是一篇较为出色的融合网络的范例。后期和清华的老师沟通得知,这篇论文的算法正在被产业化,因此源码在一段时间内不会透露,可原创 2017-09-20 17:10:21 · 11644 阅读 · 4 评论 -
MV3D -- 3D 点云表示
实验设计由于这篇文章的主要目的是对MV3D的网络结构有一个整体上的理解,因此暂时不涉及太多的细节。以下将仅仅对几个较为新颖与突出的部分进行分析。该博客重点解决3D点云的实现思路以及实现问题。3D 点云表示我们知道,MV3D的主要思想是将单目图片与雷达点云进行融合。那么首先摆在面前的便是3D点云的表示。对于空间点云的处理,一般而言有两种比较主流的方法。一种是将3D点云建立一个3D grid,然后再在g原创 2017-09-25 11:57:36 · 2052 阅读 · 1 评论 -
MV3D -- 3D proposal 网络
3D proposal 网络实际上3D proposal network就是2D proposal的升维,从实现来看,本质思想完全没有变化。然而实际上第一步得到的3D proposal是通过M+2个投影后的鸟瞰图得到的,这一部分理解起来较难。Given a bird’s eye view map. the network generates 3D box proposals from a set原创 2017-09-25 11:59:43 · 3317 阅读 · 3 评论 -
SSD及其不同主网络实现的性能差异比较
SSD-Caffe(Official) – VGG16 System VOC2007 test mAP FPS (Titan X) Number of Boxes Input resolution Faster R-CNN (VGG16) 73.2 7 ~6000 ~1000 x 600 YOLO (customized) 63.4 45 98原创 2017-10-15 19:01:58 · 3590 阅读 · 2 评论