目标检测
文章平均质量分 72
心之所向521
锲而舍之,朽木不折;锲而不舍,金石可镂!
敬畏代码!
展开
-
HyperNet: 走向特征融合,提高小物体检测精度
目录1.背景:2.结构图:3.优点4.加速策略:5.产生优异效果:6.轻量化方法:1.背景:卷积神经网络的特点是,深层的特征体现了强语义特征,有利于进行分类与识别,而浅层的特征分辨率高,有利于进行目标的定位。原始的Faster RCNN方法仅仅利用了单层的feature map(例如VGGNet的conv5-3),对于小尺度目标的检测较差,同时高IoU阈值时,边框定位的精度也不高。 在2016 CVPR上发表的HyperNet方法认为单独一个feature ...原创 2021-12-16 16:31:57 · 3901 阅读 · 0 评论 -
两种特殊卷积:转置卷积和空洞卷积
目录1.转置卷积2.空洞卷积3.总结1.转置卷积简介:我们一般可以通过卷积操作来实现高维特征到低维特征的转换。比如在一 维卷积中,一个5维的输入特征,经过一个大小为3的卷积核,其输出为3维特征。 如果设置步长大于1,可以进一步降低输出特征的维数。但在一些任务中,我们需 要将低维特征映射到高维特征,并且依然希望通过卷积操作来实现。假设有一个高维向量为和一个低维向量为如果用仿 射变换来实现高维到低维的映射, 其中为转换矩阵。我们可以很容易地通过转置 W来实现低维到高...原创 2021-12-11 18:13:31 · 4880 阅读 · 5 评论 -
网络中的网络:NiN
前面几篇文章介绍的LeNet、AlexNet和VGG在设计上的共同之处是:先以由卷积层构成的模块充分抽取空间特征,再以由全连接层构成的模块来输出分类结果。其中,AlexNet和VGG对LeNet的改进主要在于如 何对这两个模块加宽(增加通道数)和加深。今天我们来介绍网络中的网络(NiN):它提出了另外 一个思路,即串联多个由卷积层和“全连接”层构成的小网络来构建一个深层网络。我们知道卷积层的输入和输出通常是四维数组(样本,通道,高,宽),而全连接层的输入和输出则通常是二...原创 2021-12-11 16:49:13 · 1646 阅读 · 3 评论 -
单阶段多层检测器:SSD (理论及Pytorch代码详解)
目录背景:SSD结构及特点介绍:数据增强:基础的VGG结构:深度卷积层:先验框与边框特征提取网络总体网络的前向计算过程损失函数计算与先验框匹配:预选框与真实框的匹配定位损失计算难样本挖掘类别损失计算SSD总结(优缺点简述)背景:对于物体检测任务,前面Faster RCNN算法采用了两阶的检测架构,即首先利用RPN网络进行感兴趣区域生成,然后再对该区域进行类别的分类与位置的回归,这种方法虽然显著提升了精度,但也限制了检测速度。YOLO算...原创 2021-12-08 20:54:55 · 3577 阅读 · 4 评论 -
从端到端的Fast RCNN到走向实时的Faster RCNN (原理及Pytorch代码解析)
目录RCNN背景:原理:缺点:端到端的Fast RCNN背景:原理:缺点:走向实时:Faster RCNN (two-stage)背景:原理:RPN详解:Anchor的理解:RPN的真值和预测值:RPN卷积网络:RPN真值的求取:损失函数:NMS与生成Proposal:筛选Proposal得到ROl:ROl Pooling层:相关主干代码:RCNN背景:RCNN全称为Regions with CNN Feat原创 2021-12-03 12:38:35 · 7985 阅读 · 3 评论 -
利用Mediapipe和DGL实现火影结印识别与追踪---特殊手势识别
还记得曾经日思夜想也要追番的火影吗?曾经的招式还可以依稀回忆起来吗?今天我们来用图卷积神经网络GCN+DGL+Mediapipe的方式实现火影结印识别!!!听起来是不是特别有意思呢??先看一段演示视频:利用Mediapipe和DGL实现特殊手势识别---【火影结印识别】雀氏有点意思!!!!!接下来咱们细细道来!!!首先从DGL说起·······1.DGl概述Deep Graph Library (DGL) 是一个在图...原创 2021-12-02 23:34:08 · 7909 阅读 · 15 评论 -
Backbone 之 DetNet:为检测而生(Pytorch实现及代码解析)
背景:前面几节的网络骨架,如VGGNet和ResNet等,虽从各个角度出发提升了物体检测性能,但究其根本是为ImageNet的图像分类任务而设计的。而图像分类与物体检测两个任务天然存在着落差,分类任务侧重于全图的特征提取,深层的特征图分辨率很低;而物体检测需要定位出物体位置,特征图分辨率不宜过小,因此造成了以下两种缺陷: 大物体难以定位:对于FPN等网络,大物体对应在较深的特征图上检测,由于网络较深时下采样率较大,物体的边缘难以精确预测,增加了回归边界的难度。 小物体难以检测:对于传统网.原创 2021-11-30 22:41:07 · 5942 阅读 · 0 评论 -
Backbone 之 FPN:特征金字塔 (Pytorch实现及代码解析)
背景:为了增强语义性,传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作,而这一层对应的下采样率(图像缩小的倍数)通常又比较大,如16、32,造成小物体在特征图上的有效信息较少,小物体的检测性能会急剧下降,这个问题也被称为多尺度问题。 解决多尺度问题的关键在于如何提取多尺度的特征。传统的方法有图像金字塔(Image Pyramid),主要思路是将输入图片做成多个尺度,不同尺度的图像生成不同尺度的特征,这种方法简单而有效,大量使用在了COCO等竞赛上,但缺点是非常耗...原创 2021-11-30 21:53:25 · 13580 阅读 · 1 评论 -
Bachbone 之 DenseNet:继往开来(Pytorch实现及代码解析)
背景:上一节的ResNet通过前层与后层的“短路连接”(Shortcuts),加强了前后层之间的信息流通,在一定程度上缓解了梯度消失现象,从而可以将神经网络搭建得很深。更进一步,本节的主角DenseNet最大化了这种前后层信息交流,通过建立前面所有层与后面层的密集连接,实现了特征在通道维度上的复用,使其可以在参数与计算量更少的情况下实现比ResNet更优的性能,提出DenseNet的《Densely Connected Convolutional Networks》也一举拿下了2017年CVPR的最佳论原创 2021-11-30 20:35:08 · 5849 阅读 · 1 评论 -
Backbone 之 ResNet:里程碑(Pytorch实现及代码解析)
背景:由于随着网络的层数不断加深,网络训练变得越发地困难,一方面会产生梯度消失的现象,另一方面月神的网络返回的梯度相关性会越来越差,越接近白噪声,导致梯度更新也接近于随机扰动。由此ResNet应运而生。思路:引入一个深度残差框架来解决梯度消失问题,即让卷积网络去学习残差映射,而不是期望每一个堆叠层的网络都完整的拟合潜在的映射(拟合函数)。结构图:在ResNet中,上述的一个残差模块被称之为Bottleneck,其中ResNet有不同的网络层版本,比如:18,34,52,101和15.原创 2021-11-30 19:54:45 · 775 阅读 · 0 评论 -
Backbone 之 Inception:纵横交错 (Pytorch实现及代码解析)
背景:一般来说,增加网络的深度和宽度可以提升网络的性能,但是这样做也会带来参数量的大幅度增加,同时较深的网络需要较多的数据,否则很容易产生过拟合现象。除此之外,增加深度的有一个坏处就是很容易造成梯度消失的现象。由此,ImageNet大赛上,GoogLeNet(Inception)很好地解决了这个问题。Inception基础结构图:Inception特点: 采用并行结构代替之前VGG的深度串行结构 采用几个大小不同的卷积运算和池化,最后再拼接(通道拼接)到一起 1x.原创 2021-11-30 19:52:19 · 5158 阅读 · 0 评论 -
Bachbone 之 VGGNet:走向深度 (Pytorch实现及代码解析)
2014年的VGGNet荣获ImageNet亚军,其主张探索网络深度与性能的关系,用更小的卷积核与更深的网络结构,并且还取得了较为优异的效果,其网络结果图如示:从图中可以看出来,网络大概有6种版本,最为常用的是VGG16的版本。VGGNet采用了5组卷积和3个全连接层,最后的部分采用Softmax做分类,其有一个显著的特点就是: 每经过一层池化层,特征图的尺寸减小一倍,通道数增加一倍 更多地使用3x3的卷积核来代替5*5的卷积核,因为两个3x3的卷积核...原创 2021-11-30 19:48:57 · 3595 阅读 · 0 评论 -
好玩的开源项目MotionInput v2.0:探索无外接设备的交互---骨架检测、人脸关键点检测及追踪、手势识别、表情识别
------基于手势的机器学习和计算机视觉方法的模块库,用于与网络摄像头交互和控制现有软件(支持DirectX)-------原论文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.04357.pdf)1.Motioninput简介:Motioninput共有四个模块,用于描述基于 Windows 的交互的手势输入。他们使用常规网络摄像头和开源机器学习库,为 Microsoft Windows 10 上支持 DirectX 的...原创 2021-11-30 12:32:21 · 3849 阅读 · 2 评论 -
利用全连接网络实现病例AD,heart,WDBC等数据集的分类预测
1.网络搭建:"""作者:lds网络搭建"""import torch.nn as nnfrom torchvision import transforms as Tclass Net(nn.Module): # 搭建6层网络 def __init__(self, input, hidden_1, hidden_2, hidden_3, hidden_4, hidden_5,output):##在用到Net时,可以自己手动根据不同的数据集进行改动各层的大小。 ...原创 2021-11-25 12:43:29 · 1343 阅读 · 0 评论 -
MediaPipe实现手指关键点检测及追踪,人脸识别及追踪
OpenCV 是一个用于计算机视觉应用程序的库。在 OpenCV 的帮助下,我们可以构建大量实时运行更好的应用程序。主要用于图像和视频处理。可以在此处获取有关 OpenCV 的更多信息 (https://opencv.org/)除了 OpenCV,我们将使用 MediaPipe 库。1.MediaPipe简介MediaPipe是一个主要用于构建音频、视频或任何时间序列数据的框架。在 MediaPipe 框架的帮助下,我们可以为不同的媒体处理功能构建管道。MediaPipe 的一些主要..原创 2021-11-25 12:30:13 · 37607 阅读 · 20 评论 -
深度学习笔记--- 什么是分类,什么是回归?
[深度学习笔记] 什么是分类,什么是回归?监督学习中: 如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等), 如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间,线性是一条直线;对于三维空间,线性是一个平面,对于多维空间,线性是一个超平面...原创 2021-05-27 11:41:34 · 9107 阅读 · 0 评论 -
深度学习笔记----目标检测分类及比较
主要区别简单来说如下:传统方法:检测速度比较快,但是准确度较差,召回率较低。CNN方法:速度慢,但是准确度和召回率好很多。原创 2021-06-30 16:52:56 · 8141 阅读 · 0 评论