![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能算法
文章平均质量分 87
程序小旭
准研0学生方向目标跟踪与检测
展开
-
YOLO v8目标检测(三)模型训练与正负样本匹配
事件包含的信息量大小(事件发生的难度有多大)。小概率事件,它发生的难度比较大,所以有较大的信息量大概率事件,它发生的难度比较小,所以有较小的信息量概率和信息量是负相关的。原创 2024-07-28 18:05:47 · 580 阅读 · 0 评论 -
YOLO v8目标检测(二)—v8理论与模型推理
使用场景:在数据加载器加载数据的过程中会使用到数据增强的相关方法,来构造数据集。模型推理方法进行学习之前首先复习了解图像数据增强的相关方法和步骤。其中在v8的源代码中augment.py的源代码文件。它包含了几个用于数据增强的类和函数。BaseTransform 是一个基类,用于定义图像的变换操作。Compose 是一个组合多个变换操作的类。BaseMixTransform 是一个基类,用于定义图像混合的操作。Mosaic 是一个具体的混合操作类,用于将多个图像组合成一个马赛克图像。其中。原创 2024-07-27 17:06:14 · 423 阅读 · 0 评论 -
YOLO v8目标检测(一)—网络模型与构建
在backbone主干网络中主要包括了YOLOv8 继续采用 CSP (Cross Stage Partial networks)的设计理念,可以提高梯度流动并减少参数数量。YOLOv5中的C3模块在YOLOv8中被C2f模块所替代,这个变化是为了进一步的轻量化。C2f 模块融合了ELAN的设计思想head部分主要包括了(PAN+FPN)YOLOv8 保留了PAN 的思想,这是一种特征融合策略,用于结合不同层次的特征以改善性能。检测头的部分:使用了解耦头的思想。原创 2024-07-27 10:01:01 · 659 阅读 · 0 评论 -
结构重参数化卷积
VGG网络是2014年由牛津大学著名研究组VGG (Visual Geometry Group) 提出的。在2014到2016年(ResNet提出之前),VGG网络可以说是当时最火并被广泛应用的Backbone。后面由于各种新的网络提出,论精度VGG比不上ResNet,论速度和参数数量VGG比不过MobileNet等轻量级网络,慢慢的VGG开始淡出人们的视线。原创 2024-07-15 19:00:42 · 893 阅读 · 0 评论 -
YOLO V7网络实现细节(2)—网络整体架构总结
YOLO v7网络架构的整体介绍同时,我们还针对不同的业务需求,使用基础模型进行模型缩放,得到不同类型的模型。对于YOLOv7,我们对颈部进行stack scaling,并使用提出的复合缩放方法对整个模型的深度和宽度进行缩放,并以此获得YOLOv7-X。原创 2024-07-07 17:05:45 · 942 阅读 · 0 评论 -
Yolo v7网络实现细节(一)
YOLO v7网络架构的整体介绍同时,我们还针对不同的业务需求,使用基础模型进行模型缩放,得到不同类型的模型。对于YOLOv7,我们对颈部进行stack scaling,并使用提出的复合缩放方法对整个模型的深度和宽度进行缩放,并以此获得YOLOv7-X。原创 2024-07-06 19:04:11 · 1078 阅读 · 0 评论 -
YOLO V7项目使用
同样在使用yolo v7项目启动时也会和v5项目一样发生类似的报错信息。我第一次下载的项目使用的是github上下载的压缩包文件,经过解压之后导入的pycharm,在启动验证的时候缺少git相关的文件导致启动失败。安装GPU(CUDA)版本的torch,之后我们在执行训练模型的文件将整个YOLO v7项目启动失败(先卸载之前pip安装的cpu版本)YOLO v7中的拓展功能测试(关键点检测)提前手动下载所需要的yolov7-w6-pose.pt文件。这是我们默认使用的就是GPU的环境。原创 2024-07-05 21:21:23 · 1030 阅读 · 0 评论 -
YOLOv7论文解析: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7的成就在5FPS到160FPS的范围内,在速度和精度上都超过了所有已知的物体检测器,在GPU V100上以30 FPS或更高的速度在所有已知 的实时物体检测器中具有最高的精度56.8%APYOLOv7-E6在速度和精度上优于基于transformer的检测器SWINL Cascade-Mask R-CNN基于卷积的检测器ConvNeXt XL级联掩码R-CNNYOLOv7优于。原创 2024-07-04 18:45:39 · 649 阅读 · 0 评论 -
Yolo v5实现细节(2)
在之前的yolo v3中我们使用的定位损失主要使用的是差值平方的形式,通过预测边界框的参数和真实边界框的参数来进行计算求解的。原创 2024-06-26 22:50:59 · 1052 阅读 · 0 评论 -
Yolo v5实现细节
在Neck部分另外一个不同点就是New CSP-PAN了,在YOLOv4中,Neck的PAN结构是没有引入CSP结构的,但在YOLOv5中作者在PAN结构中加入了CSP。详情见上面的网络结构图,每个C3模块里都含有CSP结构。原创 2024-06-25 11:38:07 · 707 阅读 · 0 评论 -
跑通并使用Yolo v5的源代码并进行训练—目标检测
yolo作为目标检测计算机视觉领域的核心网络模型,虽然到24年已经出到了v10的版本,但也很有必要对之前的核心版本v5版本进行进一步的学习。在学习yolo v5的时候因为缺少论文所以要从源代码入手来体验yolo v5之一经典的网络模型。原创 2024-06-21 18:14:13 · 638 阅读 · 0 评论 -
目标检测算法SSD与FasterRCNN
SSD:( Single Shot MultiBox Detector)特点是在不同特征尺度上预测不同尺度的目标。原创 2024-06-16 18:02:18 · 1120 阅读 · 0 评论 -
门控循环单元GRU与长短期记忆网络LSTM
问题提出:对于第一个词元的影响至关重要。我们希望有某些机制能够在一个记忆元里存储重要的早期信息。如果没有这样的机制,我们将不得不给这个观测值指定一个非常大的梯度, 因为它会影响所有后续的观测值。原创 2024-06-15 09:58:07 · 1042 阅读 · 0 评论 -
YOLO系列理论解读 v1 v2 v3
我们将输入的448x448像素的三通道图片,经过设计的网络之后可以得到的是7x7x30的输出特征图。因为论文中提到了B=2一个网格会给出两个边界框的预测值,共7x7=49个划分之后的网格。原创 2024-06-13 17:25:21 · 1298 阅读 · 0 评论 -
循环神经网络RNN
RNN是针对序列数据而生的神经网络结构,核心在于循环使用网络层参数,避免时间步增大带来的参数激增,并引入**隐藏状态(Hidden State)**用于记录历史信息,有效的处理数据的前后关联性。原创 2024-06-12 16:44:41 · 1099 阅读 · 0 评论 -
动手学深度学习—序列数据与语言模型
时序模型中,当前数据跟之前观察到的数据相关。原创 2024-06-11 17:57:24 · 811 阅读 · 0 评论 -
Opencv图像处理
src: 输入图,只能输入单通道图像,通常来说为灰度图dst: 输出图thresh: 阈值maxval: 当像素值超过了阈值(或者小于阈值,根据type来决定),所赋予的值type:二值化操作的类型,包含以下5种类型: cv2.THRESH_BINARY;cv2.THRESH_BINARY 超过阈值部分取maxval(最大值),否则取0cv2.THRESH_BINARY_INV THRESH_BINARY的反转。原创 2024-06-10 17:42:38 · 1327 阅读 · 1 评论 -
Opencv基本操作
导入并使用opencv进行图像与视频的基本处理。原创 2024-06-10 12:07:13 · 1017 阅读 · 0 评论 -
FCN-语义分割中的全卷积网络
卷积网络是一种强大的视觉模型,它可以产生层次化特征。我们展示了卷积网络这种端到端、像素对像素的训练模型,超过了语义分割的最新技术水平。本文的关键点是构建了“全卷积”神经网络,它是一种输入尺寸任意的端对端神经网络,同时网络有着高效的学习和推理过程。我们定义并详细说明了全卷积神经网络的结构,解释它们在像素位置密集型预测任务中的应用,并得出与先前模型之间的连接。原创 2024-06-09 16:14:06 · 1039 阅读 · 0 评论 -
目标检测基础初步学习
在动手学习深度学习中对目标检测任务有如下的描述。图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object recognition)通过边界框给出了物体的相关位置信息我们通常使用边界框(bounding box)来描述对象的空间位置。边界框是矩形的,由矩形左上角的以及右下角的。原创 2024-05-28 22:48:32 · 970 阅读 · 0 评论 -
ResNet论文解读—Residual Learning Deep for lmage Recognition(2016)
提出问题:深度卷积网络难训练本文方法:残差学习框架可以让深层网络更容易训练本文优点:ResNet易优化,并随着层数增加精度也能提升本文成果:ResNet比VGG深8倍,但是计算复杂度更低,在ILSVRC-2015获得3.57%的top-error本文其它工作:CIFAR-10上训练1000层的ResNet本文其它成果:在coco目标检测任务中提升28%的精度,并基于ResNet夺得ILSVRC的检测、定位COCO的检测和分割四大任务的冠军。原创 2024-05-28 10:31:12 · 1068 阅读 · 0 评论 -
GoogLeNet论文解读—Going deeper with convolutions2015(V1)
Inception本文主题:提出名为lnception的深度卷积神经网络,在ILSVRC-2014获得分类及检测双料冠军模型特点1:Inception特点是提高计算资源利用率,增加网络深度和宽度时,参数少量增加模型特点2:借鉴Hebbain理论和多尺度处理。原创 2024-05-27 18:16:20 · 967 阅读 · 0 评论 -
VGG论文解析—Very Deep Convolutional Networks for Large-Scale Image Recognition
摘要进行解读本文主题:在大规模图像识别任务中,探究卷积网络深度对分类准确率的影响主要工作:研究3*3卷积核增加网络模型深度的卷积网络的识别性能,同时将模型加深到16-19层本文成绩:VGG在ILSVRC-2014获得了定位任务冠军和分类任务亚军泛化能力:VGG不仅在ILSVRC获得好成绩,在别的数据集中表现依旧优异开源贡献:开源两个最优模型,以加速计算机视觉中深度特征表示的进一步研究快速泛读论文确定小标题的结构3.2TestingConclusion。原创 2024-05-27 11:19:30 · 1291 阅读 · 0 评论 -
AlexNet论文解析—ImageNet Classification with Deep Convolutional Neural Networks
摘要进行解读1.在ILSVRC-2010的120万张图片上训练深度卷积神经网络,获得最优结果,top-1和top-5error分别为37.5%,17%2.该网络(AlexNet)由5个卷积层和3个全连接层构成,共计6000万参数,65万个神经元3.为加快训练,采用非饱和激活函数一一ReLU,采用GPU训练4.为减轻过拟合,采用Dropout5.基于以上模型及技巧,在ILSVRC-2012以超出第二名10.9个百分点成绩夺冠。快速的泛读论文,确定文章的小标题结构TheDataset。原创 2024-05-26 21:49:12 · 1292 阅读 · 0 评论 -
深度学习之卷积神经网络理论基础
在提出卷积层的概念之前首先引入图像识别的特点。原创 2024-05-15 15:40:20 · 679 阅读 · 0 评论 -
深度学习之神经网络理论基础
人工神经元:人类神经元中抽象出来的数学模型。原创 2024-05-13 11:58:20 · 982 阅读 · 0 评论 -
目标跟踪—卡尔曼滤波
滤波是将信号中特定波段频率滤除的操作,是抑制和防止干扰的一项重要措施。是根据观察某一随机过程的结果,对另一与之有关的随机过程进行估计的概率理论与方法。历史上最早考虑的是维纳滤波,后来R.E.卡尔曼和R.S.布西于20世纪60年代提出了卡尔曼滤波。现对一般的非线性滤波问题的研究相当活跃。原创 2024-05-04 11:42:41 · 1426 阅读 · 3 评论 -
深入浅出学习Pytorch—Pytorch简介与2024年最新安装(GPU)
2017年1月,FAlR(FacebookAl Research)发布PyTorch。PyTorch是在Torch基础上用python语言重新打造的一款深度学习框架Torch是采用Lua语言为接口的机器学习框架,但因Lua语言较为小众,导致Torch知名度不高。原创 2024-05-03 21:03:57 · 2461 阅读 · 1 评论 -
Exploring Simple 3D Multi-Object Tracking for Autonomous Driving—论文了解学习方向
通过激光雷达点云中的3D多目标跟踪是自动驾驶车辆的关键组成部分。现有方法主要基于tracking-by-detection的管道,并且不可避免地需要用于检测关联的启发式匹配步骤。在本文中,我们提出了SimTrack,通过提出一个端到端可训练的模型来从原始点云进行联合检测和跟踪,从而简化了手工制作的跟踪范式。我们的关键设计是预测给定片段中每个目标的首次出现位置,以获得跟踪身份,然后基于运动估计更新位置。在推理中,启发式匹配步骤可以通过简单的读取操作完全放弃。翻译 2024-04-09 18:29:29 · 51 阅读 · 0 评论 -
人工智能研究生前置知识—Anaconda与python工作环境
使用python进行科学计算,深度学习,机器学习等需要管理好每个项目所需要的python环境,同时安装好指定版本的依赖项。对于Anaconda的使用以及python环境的配置是以后学习的基础。而对于命令行的操作也是在使用linux服务器时必备的一项技能。原创 2024-04-07 16:36:25 · 758 阅读 · 0 评论 -
pytorch神经网络及训练(一)
随机梯度下降算法(SGD)是对梯度下降算法的一种改进。直观上SG的方法可能效率上更优。考虑这样一个情况,我们的训练数据集合 是由小的数据 集合复制10份得到的。此时,对样本做batch训练,是对样本 做batch训练计算复杂度的10倍,效果却是一样的。与之相对,SGD的方法在 中随机抽取样本的概率和在中的概率是相同的。在实际上虽然没有这种,样本完全是复制的情况,但是真实的样本却是经常有大量冗余的情况,此时SGD的效率更高。实际效果(Practical Motivation)原创 2023-06-17 21:37:28 · 983 阅读 · 0 评论 -
Pytorch中的数据操作和预处理
在Pytorch中的torch.util.data模块包含着一些常用的数据预处理的操作,主要用于数据的读取、切分、准备等常用的数据操作原创 2023-06-14 18:04:31 · 1405 阅读 · 0 评论 -
pytorch深度学习框架—torch.nn模块(二)
torch.nn.Sigmoid激活函数也叫logistics激活韩式计算公式为:torch.nn. Tanh双曲正切函数的公式:torch.nn.ReLu激活函数的计算公式为:Sigmoid激活函数Tanh激活函数ReLu激活函数pytorch中提供了三种循环层的实现,如图表所示torch.nn.RNN()输入一个多层的Elaman Rnn进行学习原创 2023-06-13 21:44:59 · 1190 阅读 · 0 评论 -
PyTorch实验—回归任务
回归任务概述:通过pytorch搭建神经网络,进行气温的预测回归任务可以看作 y = kx + by为需要进行回归预测的值。原创 2023-06-03 21:15:00 · 1997 阅读 · 0 评论 -
pytorch实现图像分类任务-手写数字识别(一)
Size: 28×28 灰度手写数字图像Num: 训练集 60000 和 测试集 10000,一共70000张图片train-images-idx3-ubyte.gz:训练集图像(9912422 字节)55000张训练集 + 5000张验证集;train-labels-idx1-ubyte.gz:训练集标签(28881 字节)训练集对应的标签;t10k-images-idx3-ubyte.gz:测试集图像(1648877 字节)10000张测试集;原创 2023-06-03 19:56:16 · 737 阅读 · 0 评论 -
代码创作世界——pytorch深度学习框架数据类型
通过pytorch代码构造张量的过程,体现出了代码创造童话,共建快乐世界。原创 2023-06-01 21:25:08 · 672 阅读 · 0 评论 -
FastRcnn理论合集
论文原著R-CNN可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,曾在2010年带领团队获得终身成就奖。RCNN算法流程可分为4个步骤候选区域的生成利用Selective Search算法通过图像分割的方法得到一些原始区域,然后使用一些合并策略将这些区域合并,得到一个层次化的区域结构,而这些结构就包含着可能需要的物体。2,对每个候选区域。原创 2023-05-24 20:16:10 · 467 阅读 · 0 评论 -
深度学习—目标检测标注数据集
PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis,Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。原创 2023-05-23 20:58:20 · 671 阅读 · 0 评论 -
GoogLeNet网络详解
GoogLeNet在2014年由Google团队提出,斩获当年ImageNet竞赛中Classification Task(分类任务)第一名。网络存在的亮点。原创 2023-05-22 19:12:34 · 87 阅读 · 0 评论 -
VGG网络原理与搭建
VGG在2014年由牛津大学著名研究组VGG(Visual Geometry Group)提出,斩获该年ImageNet竞赛中Localization Task(定位任务)第一名和Classification Task(分类任务)第二名。论文中提及的结构在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(receptive field)。通俗的解释是,输出feature map上的一个单元对应输入层上的区域大小。感受野计算公式:F(i)为第i层感受野。原创 2023-05-14 20:43:21 · 609 阅读 · 0 评论