2D目标检测
文章平均质量分 52
williamyi96
PhD Student on Machine Learning, Optimization, Federated Learning, and Data-Efficient Learning.
展开
-
YOLO
YOLO是第一个经典的非基于Region Proposal的目标检测的模型,其在保证效果不是很差的基础之上,基于回归的思想,达到了超高的实时性。虽然由于某些原因个人不是特别青睐YOLO,但是发现基于YOLO的改进版的模型取得了很好的效果,如其在SqueezeDet中的使用,因此打算以此为契机研究以下该模型。总体结构分析话不多说,直接上总体流程图:YOLO没有类似于Object Proposal的过程原创 2017-08-27 16:00:31 · 928 阅读 · 0 评论 -
Faster RCNN 源码解读(1) -- 文件结构分析
基本介绍Faster RCNN 在目标检测及其相关领域得到了广泛的运用。其原型RCNN是将CNN引入到目标检测的开山之作,此外基于region proposal是一种十分值得学习的思想。因此将在后续的系列章节中,基于源码,对Faster RCNN进行深入的剖析。代码结构从github上的源码看上去就是这个样子:接下来将对各个文件夹的功能进行详细的分析:caffe-fast-rcnnFaster RC原创 2017-09-15 18:35:57 · 3373 阅读 · 5 评论 -
pooling 与 unpooling 深度解析
pooling 和 unpooling这两种具体实现方式对应到神经网络的技术上就是downsampling和unsampling。两者在神经网络的系列方法中都使用较多,下面将从总体上分析两者的作用。下采样(downsampling)下采样是神经网络设计的必要方法,其主要作用是浓缩图像,减少运算量;另外一方面是扩大特征像素点对应的感知野,忽略掉一些细微的噪声信息,取得更好的检测等任务的效果。上采样(u原创 2017-08-24 15:59:46 · 3710 阅读 · 1 评论 -
3DOP -- 源代码结构
通过3DOP项目的主页,我们可以找到通往多伦多大学的项目源代码的链接。不知是处于什么目的,该代码是以压缩包而不是github的方式给出的。通过下载之后,我们可以看到指导说明为:3DOP_code_cuDNNv3 and v5由于cuDNN 3版本和cuDNN5的版本上有一定实现差异,因此该代码兼容了上述两个版本。下面仅针对cuDNN v5 来进行代码分析。## 3D Object Proposal原创 2017-09-25 17:45:33 · 1738 阅读 · 4 评论 -
[论文解读] MSCNN: A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
基本情况《A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection》是发表于ECCV16的一篇很出色的文章,来自加州圣地亚哥的Zhaowei Cai。其基本思路是提出了一种多尺度卷积神经网络,由于不同层的feature map的优势不一样,如较低层的feature map由于感知野较小,因此对与原创 2017-09-25 17:05:44 · 4808 阅读 · 0 评论 -
[论文解读] SqueezeDet
基本介绍《SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving》是一篇相当惊艳的文章,其主要想法是基于SqueezeNet以及YOLO进行改进,来在保证速度的情况之下提升精度来做目标检测。通过实验室师原创 2017-09-18 11:40:47 · 4476 阅读 · 0 评论 -
基于源码的Faster R-CNN训练总体流程梳理
之前的文章中对于Faster R-CNN的总体流程进行了梳理,详情参见这里。本篇文章将要以源码中的结构为基础,对于训练的整体流程进行梳理,以便后续源码的阅读。首先我们要明确的是,实际的Faster R-CNN中训练分为6个步骤:第一次训练RPN网络,对应源码中的stage1_rpn_train.pt利用步骤1训练好的RPN网络,收集proposals,对应rpn_test.pt第一次原创 2017-08-27 22:53:18 · 686 阅读 · 0 评论 -
Faster R-CNN基于代码实现的细节
Faster RCNN github : https://github.com/rbgirshick/py-faster-rcnnFaster RCNN paper : https://arxiv.org/abs/1506.01497Bound box regression详解 : http://download.csdn.NET/download/zy1034092330/9转载 2017-08-28 14:06:27 · 15732 阅读 · 16 评论 -
Faster R-CNN(~ RPN + Fast R-CNN)
Faster R-CNN是一个真正意义上的端对端的目标检测模型,总体实现方式继承自RCNN, Fast RCNN, 而最大的改进是废除了上述两者的Selective Search 算法,同时也是其实现端对端的保证。论文中说,如果简单地在CNN前面加上一个专门提取proposal的网络显得不够优雅,所以最终把region proposal 提取和 Fast R-CNN部分融合进了一个网络模型,也就是区原创 2017-08-18 22:48:49 · 3861 阅读 · 0 评论 -
Bounding-box Regression深度解析
在R-CNN以及之后的系列文章中,都有Bounding-box Regression的使用,甚至到了MV3D等等的3D Bounding-box Regression, 其思想都是来源于最基础的Bb Regression的。我将从以下几个角度主要结合自己的理解来谈一谈Bounding-box Regression. 首先,讲一下bounding-box regression使用的动机及其解决的问题,原创 2017-08-24 15:51:17 · 5983 阅读 · 0 评论 -
反卷积网络概念及其于目标检测中的应用
反卷积网络概念及其于目标检测中的应用原创 2017-08-25 00:27:26 · 472 阅读 · 0 评论 -
浅谈Dropout
在全连接网络部分,Dropout这一超参得到了较为广泛的应用,同时取得了不错的效果。下面就来简单地谈谈Dropout。什么是Dropout我们知道,典型的神经网络其训练流程是将输入通过网络进行正向传导,然后将误差进行反向传播。Dropout就是针对这一过程之中,随机地删除隐藏层的部分单元,进行上述过程。综合而言,上述过程可以分步骤为:随机删除网络中的一些隐藏神经元,保持输入输出神经元不变;将输入原创 2017-08-25 00:24:53 · 13608 阅读 · 2 评论 -
1*1卷积核作用分析
1*1卷积核,这种小巧的卷积核从GoogLeNet,ResNet之后得到了广泛的使用,其在理论上和时间上都被证明了针对特定的问题可以一定程度地提升神经网络的效率。关于1*1卷积核的作用,总体而言主要有如下两个方面的内容:进行升维与降维并减少网络参数。关于其降维并减少网络参数的特点在GooLeNet中表现得一览无遗,详情可以参见GooLeNet,关于其升维并减少网络参数的功能在ResNet中使用得非原创 2017-08-24 16:01:59 · 2194 阅读 · 0 评论 -
SSD
参考资料: http://www.cs.unc.edu/~wliu/papers/ssd_eccv2016_slide.pdf原创 2017-08-25 00:24:22 · 230 阅读 · 0 评论 -
VGG16中3个3*3卷积核对AlexNet中7*7卷积核的替代性分析
使用更小的卷积核是当前在保证网络精度的情况下,减少参数的趋势之一,在VGG16中,使用了3个3*3卷积核来代替7*7卷积核,使用了2个3*3卷积核来代替7*7卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。以下简单地说明一下小卷积(3*3)对于5×5网络感知野相同的替代性。如图所示:关于3个3×3卷积核对于7× 7 卷积的替代性思考方式同上原创 2017-08-24 16:14:18 · 12801 阅读 · 4 评论 -
FCN
转载自: http://blog.csdn.net/taigw/article/details/51401448在上述原文的基础上结合自己理解做出了部分修改。从图像分类到图像分割卷积神经网络(CNN)自2012年以来,在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一转载 2017-08-19 19:35:16 · 19853 阅读 · 0 评论 -
SSD及其不同主网络实现的性能差异比较
SSD-Caffe(Official) – VGG16 System VOC2007 test mAP FPS (Titan X) Number of Boxes Input resolution Faster R-CNN (VGG16) 73.2 7 ~6000 ~1000 x 600 YOLO (customized) 63.4 45 98原创 2017-10-15 19:01:58 · 3455 阅读 · 2 评论