乘月---CV-CSDN博客

原创 vision transformer论文笔记及模型解析【笔记】

流程就是，首先将输入图片(224x224)按照16x16大小的Patch进行划分，划分后会得到196个Patches，然后接着通过线性映射将每个Patch映射到一维向量中，每个Patche数据shape为[16, 16, 3]（其中3为通道数）通过映射得到一个长度为768的向量（也称为token）。之后我们得到196个长度为768的向量，首先是添加类别编码，我们为每个token添加类别编码，即[196,768]与[1,768]拼接都得到[197，768]的二维向量。），在每个块之后应用残差连接。

2024-02-04 21:57:44 200 1

原创 Faster R-cnn模型结构及算法解析

faster R-cnn直接在特征图上进行候选框的选择，如上图，而RPN就是对于输入的图片，输出一批矩形区域的提名，每一个区域都会对应目标的分数和位置信息。，即兴趣域池化，用于收集RPN生成的proposals即每个预测框的坐标，并从卷积得到的feature maps中将对应预测位置提取出来，生成proposals feature maps送入后续全连接层继续做分类（预测框具体是哪一类别）和回归。第一个模块是提出区域的深度全卷积网络，第二个模块是使用提出的区域的快速R-CNN检测器。

2024-01-30 19:06:24 167 1

原创 YOLOV5模型结构及算法解析笔记

有图可见，SPP模块是将图像分别并行通过三个池化层，然后再进行concat拼接，而SPPF是将输入特征图串行通过CBL，最大池化层，并且在每层都输出一个特征图用于将它们concat拼接，最后在经过CBL 层。YOLOV5的第一个Focus层，在V6.0之后被替换为卷积层，Focus模块能够实现二倍下采样的特征图，同时不会丢失信息，因此提高了模型的性能及效率，且二者几乎是等效的，下面细谈二者的等效性。YOLOV5的作者没有发布论文，因此在参考源码及博主的文章基础上学习YOLOV5的模型结构及算法。

2024-01-21 21:28:14 432 1

原创 YOLOV4模型结构及算法解析笔记

这里简单叙述一下样本匹配问题，通过缩放后网络预测中心点的偏移范围已经从原来的( 0 , 1 ) 调整到了( − 0.5 , 1.5 ) ，因此预测框的范围扩大了，所以对于同一个GT Boxes可以分配给更多的Anchor（每个grid cell负责产生三个Anchor），不同的grid cell可以预测同一种类别的对象，然后通过筛选得到最优的预测框，即正样本的数量更多了。sigmoid函数如下图：可知网络的预测值需要负无穷或者正无穷时才能取到网格左上角或者右下角，而这种很极端的值网络一般无法达到。

2024-01-20 17:15:45 841

原创 YOLOV3模型结构及算法解析笔记

的个数（因为一共是9个聚类，三个尺度，故每个尺度拥有3个聚类，故在每个预测特征层中k默认取3），c为预测目标的类别数，其中4k个参数负责预测目标边界框的偏移量，k个参数负责预测目标边界框内包含目标的概率，ck个参数负责预测这k个预设边界框对应c个目标类别的概率。而如果边界框先验与真实框的重叠量大于任何其他边界框先验，则该值应为1。使用COCO数据集的实验中，由于每个尺度上预测3个框，因此对于4个边界框偏移、1个预测目标边界框内包含目标的概率，和80个类预测，故输出张量为N×N×[3*（4+1+80）]。

2024-01-18 20:56:49 350

原创 YOLOV2模型结构及算法解析笔记

（8）yoloV2没有了全连接层，可以进行多尺度训练增加模型的鲁棒性（在训练过程中每间隔一定的iterations之后改变模型的输入图片大小）；（3）移除了全连接层采用了卷积和anchor boxes来预测边界框（YOLOv2采用k-means聚类方法对训练集中的边界框做聚类分析。（2）对224×224的图像进行初始训练后，将网络微调为更大的大小448，随后使用上述参数进行训练，但只训练10个epochs。（6）使用sigmoid函数处理偏移值，使预测的偏移值在（0，1）的范围内，约束在当前的cell内；

2024-01-17 21:32:24 319

原创 YOLO学习笔记（模型结构及算法解析）

具体实现细节为，将一张图像分成S×S个网格，如果一个物体的中心落在一个网格单元中，这个网格单元负责检测这个物体。每个网格单元预测B个边界框和这些框的置信度得分。如图，将一张图片为分成7×7的网格，每个网格生成两个预测框。它将图像划分为S × S网格，并为每个网格单元预测B个边界框、这些框的置信度和C类概率。整体流程：首先系统将输入图像的大小调整为448 × 448，然后在图像上运行单个卷积网络，最后通过模型的置信度对结果检测进行阈值。如上图，是该模型的网络结构，网络有24个卷积层，后面是2个全连接层。

2024-01-16 15:34:02 348

weixin_54372361的博客