- 博客(64)
- 收藏
- 关注
原创 YOLO系列
去使用基于anchor偏移的预测会简化目标边界框预测的问题,会让网络更快学习,使用anchor虽然map下降一点点,但是召回率提升,意味着模型有更多的提升空间。小目标与大目标偏移相同尺度时,小目标检测效果差,那么公式中使用根号就会让小目标损失值更大了。使用sigmoid函数让边界框回归到gridcell里面。小目标检测效果差,当目标出现新配置也不行,目标定位不行。包含低层信息,进行融合,便于检测小物体。
2023-09-19 16:15:19 96
原创 目标检测前言,RCNN,Fast RCNN,Faster RCNN
找到概率最高的目标之后,与其他目标进行IOU交并比计算,若高于一定值,则说明这两张图片预测的是同一个目标,则把概率低的目标删掉。256-d(一维向量)来历,指的是特征深度,这里使用ZF网络,如果VGG肯定就是512了。从提取到的feature map上,每个anchor生成2个概率,一个背景,一个目标。Gx,Gy是调整中心点,Dx(P)是回归参数,exp就是e的多少次方。感受野=(输出尺寸-1)*stride+kernel_size。因为是直接得到特征图之后进行映射,所以不限制输入图像尺寸。
2023-09-17 16:31:08 597
原创 8.23笔记(手写),deeplabV2与V3
扩大感受野:神经网络加深,单个像素感受野扩大,但特征图尺寸缩小,空间分辨率降低,为此,空洞卷积出现了,一方面感受野大了可以检测分割大目标,另一方面分辨率高了可以精确定位目标。捕获多尺度上下文信息:两列之间填充 (r-1) 个0,这个 r 可自己设置,不同 r 可得到不同尺度信息。空洞卷积可以在扩大感受野的情况下不损失信息,但其实,空洞卷积的确没有损失信息,但是却没有用到所有的信息。池化可以扩大感受野,降低数据维度,减少计算量,但是会损失信息,对于语义分割来说,这造成了发展瓶颈。1.2 空洞卷积的优点。
2023-08-24 13:27:04 336
原创 8.12学习笔记
它的主要作用是将数据加载到内存中,并提供一种统一的方式来访问数据。__len__方法返回数据集的大小,__getitem__方法根据给定的索引返回数据集中的一个样本。在上面的例子中,我们首先创建了一个MyDataset的实例,并将其传递给DataLoader类。DataLoader类是用于加载数据的迭代器。它可以将Dataset类的实例作为输入,并提供一种方便的方式来迭代数据。DataLoader类还提供了一些有用的功能,如数据的批处理、数据的随机打乱和多线程数据加载等。# 在这里进行训练或推理操作。
2023-08-12 21:39:39 268
原创 8.2学习笔记,复习MLP感知机并复现
MLP感知机是一种多层感知机(Multilayer Perceptron)模型,也被称为前馈神经网络(Feedforward Neural Network)。它是一种人工神经网络,由多个神经元层组成,每个神经元层与下一层之间存在全连接关系。MLP感知机的基本单元是神经元(或称为节点),每个神经元接收来自上一层神经元的输入,并通过激活函数对输入进行处理,然后将处理结果传递给下一层神经元。该算法通过计算模型的输出与实际输出之间的误差,并根据误差来调整神经元之间的权重,以使模型的输出尽可能接近实际输出。
2023-08-02 20:22:34 33
原创 8.1学习笔记,复习感知机
一个感知器可以接收多个输入,每个输入上有一个,此外还有一个感知器的激活函数可以有很多选择感知器的输出由下面这个公式来计算:例子:用感知器实现and函数我们用0表示,用1表示令而激活函数就是前面写出来的,这时,感知器就相当于and函数。
2023-08-02 20:22:03 18
原创 yolov5中的一些运行文件的作用
ONNX格式可以将深度学习模型从一个框架转换到另一个框架,从而使得不同的框架可以共享模型,加速模型的开发和部署。通过验证结果报告,可以评估模型的性能,优化模型的参数和超参数,提高模型的准确率和泛化能力。export.py是YOLOv5中的一个Python脚本,用于将训练好的模型导出为ONNX格式或TorchScript格式,以便在其他平台上进行推理。在使用YOLOv5进行目标检测时,可以加载这个预训练权重文件,从而加快模型的训练和推理速度,并且可以提高模型的检测精度。
2023-05-21 22:24:13 4043 1
转载 5.16笔记,yolov5模型训练
将hat.yaml文件中的图片路径改为自己电脑中的路径,同时确保标签种类(number of classes)为2,标签名称(class names)是标记的两种。3.在train.py文件中确保权重(weight)、模型(model)、数据(data)三者的路径正确。2.确保yolov5_hat.yaml中标签种类(number of classes)为2。1.打开hat.yaml,yolov5_hat.yaml,train.py三个文件。weights:初始化的权重文件的路径地址。
2023-05-16 22:42:06 78
转载 5.14笔记,yolov3
B表示每个单元可以预测的边界框的数量。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth,我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。一般而言,网络中任何层的步幅等于该层的输出的尺寸比网络的输入图像的尺寸小的倍数。
2023-05-14 22:30:51 57
原创 yolov2
对比yolov1,v1最后7*7*1024经过多层全连接才变成7*7*30,为何不直接用一次卷积呢,所以v1比较繁琐。所以v2中就不要全连接层了。
2023-05-13 23:19:26 48
原创 目标检测SSD算法笔记
在训练过程中,它会学习到不同物体类别的特征,以及如何将这些特征与目标的位置信息相结合,从而实现对目标的准确检测和定位。Prior Box Layer通过在图像上生成一组先验框,为后续的目标检测算法提供了一些初始的候选框,从而提高了检测的准确率和效率。固定aspect ratio表示在每个cell中生成的bounding box的长宽比是固定的,不会随着目标形状的变化而变化。固定scale指的是在每个cell中生成的bounding box的大小是固定的,不会随着目标大小的变化而变化。
2023-05-13 19:50:23 106
原创 目标检测一部分基础术语笔记
目标检测中的fine-tuning是指在已经训练好的模型基础上,通过在新的数据集上进行微调,以提高模型在新数据集上的性能。通常情况下,fine-tuning是在一个预训练模型的基础上进行的,这个预训练模型通常是在大规模数据集上进行训练的,如ImageNet。目标检测中,ground truth指的是真实的目标位置和类别信息,通常由人工标注或者其他可靠的方法得到。mAP越高,说明算法在检测目标方面的性能越好。SS搜索方法的优点是能够生成大量的候选框,覆盖了图像中的大部分区域,从而提高了目标检测的召回率。
2023-05-13 13:18:14 1206
转载 什么是语义分割
语义分割是一种重要的图像分割技术,其主要目标是对图像中的每个像素进行分类,从而实现更加精细的分割效果。其中,卷积层和池化层可以提取图像中的特征,上采样层可以将特征图放大到原始图像的尺寸,softmax层可以将特征图转换为每个像素所属的类别概率。预测和应用是语义分割的最终目的,其目标是使用训练好的模型对新的图像进行分割,获取图像中每个像素所属的类别,从而实现图像分割的自动化和精细化。预测和应用:使用训练好的模型对新的图像进行语义分割,获取图像中每个像素所属的类别,从而实现图像分割的自动化和精细化。
2023-04-21 20:25:38 71
原创 目标检测SSD
我们把背景称为负类,包含了物体的矩形框称为正类,不难理解图像中大部分的矩形框只包含了负类,若用全部的负类和正类来计算损失函数,那么训练出来的模型偏向于给出负类的结果。预测矩形框:每个特征映射图的位置包含了不同大小的先验框,然后用预测卷积层对特征映射进行转换,输出每个位置的预测矩形框,预测矩形框包含了框的位置和物体的检测分数。由第一节的损失函数介绍可知,大部分的预测矩形框包含了负类(背景类),容易知道一张图中负类的个数远远多于正类,若我们计算所有类的损失值,那么训练出来的模型会偏向于预测负类的结果。
2023-04-17 23:28:12 34
原创 yolo算法
YOLO(You Only Look Once)算法是一种实时目标检测算法,可以在图像或视频中快速准确地检测出多个目标的位置和类别。它的特点是将目标检测任务看作一个回归问题,通过一个神经网络直接输出目标的位置和类别,因此速度非常快。YOLO算法可以用于许多应用,如自动驾驶、智能监控、人脸识别、机器人视觉等领域。它可以帮助计算机系统快速准确地识别出图像或视频中的目标,从而实现自动化、智能化的应用。
2023-04-15 15:56:06 533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人