![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
目标检测
莫一丞元
根特大学PhD在读
展开
-
YOLT
简介YOLT是基于YOLO算法进行改进的高效卫星图像目标检测算法,主要针对高分辨率输入和密集小物体进行了优化。在YOLO的基础上提出了一种两阶段的算法架构,不仅可以适应多尺度的检测,同时达到了F1>0.8的结果,最后还探究了分辨率和物体大小对于检测的影响,并发现只需要五个像素的大小就可以实现目标检测。文章主要从深度学习对于卫星图像目标检测的缺陷出发,提出了改进的细粒度的目标检测网络结构。同时为了解决检测不变性的问题进行了大量的数据增强。卫星图像存在的挑战·空间范围较小:在卫星图像中,感兴趣原创 2020-09-05 10:35:36 · 1902 阅读 · 0 评论 -
yolo-v4
相对于前几期版本yolov4做出的改变:不增加计算损耗的trick(Bag of freebies):像素级数据增强(亮度、对比度、色彩、饱和度、噪声;随机尺度、裁剪、翻转、旋转)模拟目标遮挡(Random Erase、Cutout、Hide-and-seek、Grid-mask;Dropout、DropConnect、DropBlock)使用多张图混合增强(Mixup、CutMix)样本不平衡问题(困难样本挖掘(HEM、OHEM)、Focalloss)Oneho.原创 2020-09-04 21:43:35 · 546 阅读 · 0 评论 -
yolo-v3
背景YOLO是一种端到端的目标检测模型。YOLO算法的基本思想是:首先通过特征提取网络对输入特征提取特征,得到特定大小的特征图输出。输入图像分成grid cell,接着如果真实框中某个object的中心坐标落在某个grid cell中,那么就由该grid cell来预测该object。每个object有固定数量的bounding box,YOLO v3中有三个bounding box,使用逻辑回归确定用来预测的回归框。先分析一下yolo_v3上保留的东西:l “分而治之”,从yolo_v1开始,y原创 2020-09-04 21:42:40 · 333 阅读 · 0 评论 -
yolo-v2
背景新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”,是作者rbg(RossGirshick)于2016年发表。主要有两个大方面的改进:第一,作者使用了一系列的方法对原来的YOLO多目标检测框架进行了改进,在保持原有速度的优势之下,精度上得以提升。VOC 2007数据集测试,67FPS下mAP达到76.8%,40FPS下mAP达到78.6%,基本上可以与Faster R-CNN和SSD一战。这一部分是本文主要关心的地方。第二,作者提出了一种目标分类与原创 2020-09-04 21:42:11 · 110 阅读 · 0 评论 -
yolo-v1
背景根据 YOLO官网 对它的解释,YOLO:Real-TimeObject Detection. You Only Look Once(YOLO)是一个最先进的实时的目标检测系统。这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名的又一大作,起了一个很娱乐化的名字:YOLO。 虽然目前版本还有一些硬伤,但是解决了目前基于DL检测中一个大痛点,就是速度问题。 其增强版本GPU中能跑45fps,简化版本155fps。下面为一个对比图:具原创 2020-09-04 21:41:23 · 414 阅读 · 0 评论 -
yolo-v3主干-darknet53 理解
网络主要是由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU)层。网络中有53个convolutional layers,所以叫做Darknet-53(2 + 12 + 1 + 22 + 1 + 82 + 1 +82 + 1 + 4*2 + 1 = 53 ,不包括Residual中的卷积层,最后的Connected是全连接层也算卷积层,一共53个。下图就是Darknet-53的结构图,在右侧标注了一些信息方便理解。(卷积的strides默认为(1,1),paddi原创 2020-09-04 21:41:04 · 3395 阅读 · 0 评论 -
ROI Pooling
ROI Pooling(Region of interest pooling – 感兴趣区域池化)主要作用:对于不同尺寸的输入目标框,通过roi pooling,将其尺寸变为相同。作用:统一预选框尺寸减轻网络,加速计算允许端到端的训练模型步骤:将区域提案划分为相等大小的部分(其数量与输出的维度相同)找到每个部分的最大值将这些最大值复制到输出(maxpooling)例如,下面为常规检测模型框架,对于输入图片,如下:此时输入的为N*5,其中N为经过RO原创 2020-09-07 22:16:52 · 485 阅读 · 0 评论 -
RPN理解
背景首次提出在faster-rcnn中,用于替代以前的SS算法或者滑动窗口+图像金字塔,用于生成候选框。说明:下述预测的位置信息均为偏移量,这里为了理解方便才说为准确信息。细节Region Proposal Networks(RPN)给出候选框上图展示了RPN网络的具体结构。其中输入为特征图,输出为一系列候选框。可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得positive和negative分类,下面一条用于计算对于anchors的bounding box r原创 2020-09-03 17:11:48 · 1306 阅读 · 0 评论 -
Selective Search理解
概述碰见“Selective Search”算法(ss算法、选择性搜索算法)是在理解R-CNN网络的时候,因此这篇笔记算是理解R-CNN的准备。Selective Search 算法首次出现在著名的物体检测论文《Rich feature hierarchies for accurate object detectionand semantic segmentation》中。下面只介绍 Selective Search 的思想和算法过程,论文其余部分不叙述。Selective Search,说的简单点原创 2020-09-03 17:00:51 · 397 阅读 · 0 评论 -
候选框回归
原创 2020-09-03 16:55:44 · 216 阅读 · 0 评论 -
特征图融合方式汇总
本篇对图像处理中的特征融合做总结,防止混淆。传统特征:像SPP net,Fast RCNN,FasterRCNN是采用这种方式,即仅采用网络最后一层的特征。图像金字塔:将原图片做成不同的尺寸,再进行特征提取,进行检测。可以在检测的时候尝试。多尺度特征融合:像SSD(Single Shot Detector)采用这种多尺度特征融合的方式,没有上采样过程,即从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量。特征金字塔(FPN):顶层特征通过上采样和低层特征做融合,而且每层都是独原创 2020-09-03 16:52:35 · 4946 阅读 · 0 评论 -
目标检测综述
一图胜千言原创 2020-09-03 16:50:21 · 78 阅读 · 0 评论 -
非极大值抑制(NMS)
通过算法我们可以找到一系列可能是物体的矩形框,这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。。下面举一个例子对于上图,假设有6个矩形框,根据分类器类别分类概率做排序,从小到大分别属于车辆的概率分别为A、B、C、D、E、F。(1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值。(2)假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。(3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠原创 2020-09-03 16:48:19 · 135 阅读 · 0 评论 -
小目标检测综述
本文记录仅仅对现阶段小目标检测可能会用到的一些方法进行汇总,并未有独创的解决办法。定义一般为原数据比例小于0.1就可以认为是小目标,或者小于35*35像素。CNNs的更深层有很大的步长(32 pixels)会导致对于输入图片有个非常粗糙的表示,从而小目标的检测非常困难。例如:下面为COCO数据上的小目标比例可以看出:存在数量多,但集中的特点。现存解决办法数据预处理部分过采样多复制多尺度数据拼接调整图像分辨率网络模型部分FPNROI池化YOLTSNIP系列训练方法部原创 2020-09-03 15:41:47 · 1428 阅读 · 0 评论