weixin_43981952-CSDN博客

原创 YOLOX讲解

目录1、基准模型base line2、Yolox-Darknet532.1 输入端2.1.1 strong augmentationMosaic增强Mixup增强2.2 backbone2.3 Neck2.4 Head层2.4.1 Decoupled Head2.4.1.1 为什么需要decoupled head2.4.1.2 decoupled head细节2.4.1.2 Anchor-free2.4.1.2 标签分配（1）初步筛选（2）精细化筛选3、Yolox-s、l、m、x系列类似于YOLOV5，Y

2022-01-18 01:04:09 3403 1

原创标签平滑labelsmooth

参考这篇文章，非常细节Label smoothing 标签平滑应用借助弱监督方式引入外部数据集中的高质量数据（这里引入的数据是没有标签的数据）——解决了自行扩展数据集带来的测试偏移。步骤如下：使用训练数据建立模型预测爬取的数据的标签，对外部数据进行伪标签标注。结合样本分布和混淆矩阵的结果，设置了多级阈值，选择可信度高的数据，组合成新的数据集重复1,2,3。模型训练的过程中需要借助标签平滑，因为伪标注的标签会存在不正确的标签，所以不能完全信任标注标签。...

2022-01-09 15:28:59 631

原创 Swin Transformer

目录引言整体架构Patch MergingW-MSA结构MSA的计算量W-MSA计算量SW-MSA结构Relative Position Bias（相对位置偏置）讲解非常透彻一篇swin transformer博客引言目前Transformer引入到图像领域所面临的的主要挑战是：视觉实体变化大，在不同场景下视觉Transformer性能未必很好图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大Swin Transformer 就是为了解决这两个问题所提出的一种

2021-12-27 00:43:46 2953 1

原创 VIT- Transformers For Image Recognition At Scale

目录ViT原理分析Embedding层Transformer Encoder层MLP Head层Hybrid混合模型vision transformer讲解非常清晰的一篇文章ViT原理分析这个工作本着尽可能少修改的原则，将原版的Transformer开箱即用地迁移到分类任务上面。并且作者认为没有必要总是依赖于CNN，只用Transformer也能够在分类任务中表现很好，尤其是在使用大规模训练集的时候。同时，在大规模数据集上预训练好的模型，在迁移到中等数据集或小数据集的分类任务上以后，也能取得比CNN更

2021-12-26 20:52:27 491

原创 Deformable DETR

目录一、Deformable Convolution原理分析Deformable DETR 原理分析Deformable Attention ModuleMulti-scale Deformable Attention Module一、Deformable Convolution原理分析Deformable Convolution 将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程，从而使结构适应物体形变的能力更强。传统的CNN卷积核是固定大小的，只能在固定为位置对固定输入特征进行采样，为了

2021-12-21 15:27:55 5472 2

原创 Transformer论文笔记

目录1、一切从Self-attention开始1.1 处理Sequence数据的模型1.2 Self-attention1.3 Multi-head Self-attention1.4 Positional EncodingTransformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制，不采用 RNN 的顺序结构，使得模型可以并行化训练，而且能

2021-11-29 21:31:26 888

原创小目标检测方法介绍

目标检测发展很快，但对于小目标的检测还是有一定的瓶颈，特别是大分辨率图像小目标检测。比如79202160，甚至1600016000的图像，还有一些遥感图像。图像的分辨率很大，但又有很多小的目标需要检测。但是如果直接输入检测网络，比如yolo，检出效果并不好。主要原因（1）小目标尺寸以网络的输入608x608为例，yolov3、yolov4，yolov5中下采样都使用了5次，因此最后的特征图大小是19x19，38x38，76x76。三个特征图中，最大的76x76负责检测小目标，而对应到60.

2021-11-12 10:54:37 5396

原创 YOLOv5论文笔记

1、网络结构图

2021-11-12 10:28:39 15523 1

原创 YOLO V4论文笔记

1、backbone 是指用于在imagenet数据集上预训练的结构，用于提取图片特征。用于GPU：vgg,resnet,densenet;用于CPU:squeezeNet,mobilenet,shuffleNet2、head 是指用于预测类别和bbox的结构。3、neck 是指在backbone与head之间插入的一些层，用于从不同的stages提取图片特征。通常由bottom-up paths和top-down paths组成，像FPN,Path Aggregation Network(PAN),.

2021-11-11 23:46:41 2503

原创 Yolo格式的数据集介绍

一、数据集在项目中的存放位置最好在项目最外面一级目录（也就是项目的一级子目录）下存放数据集文件夹，这是因为dataset在读取图片是是从项目根路径开始读取的，数据集文件夹共有两个子文件夹，一个是 images ，一个是 labels ，分别存放图片与标签txt文件，并且 images与labels的目录结构需要对应，因为yolo是先读取images图片路径，随后直接将images替换为labels来查找标签文件。如下所示：二、标签文件的内容格式每张图片对应的txt文件中，数据格式是：cls_

2021-11-11 15:57:48 8613

原创 Flask视频流传输

参考资料在 Flask 里产生流式响应使用 multipart/x-mixed-replace 实现 http 实时视频流使用 Flask 进行视频流传输重新审视 Flask 视频流目录流媒体Flask实现流传输multipart Response构建实时视频流服务器从相机中获取帧有线程时才运行照相机相机基类BaseCamera上一个版本存在的问题流媒体流式传输是一种技术，其中服务器以块的形式提供对请求的响应。流媒体有两大特点：1、large response（即数据量大）：对于非常大.

2021-10-16 15:42:22 3874 2

原创 YOLO-v3论文笔记

一、网络架构首先解释一下Top1和Top5：模型在ImageNet数据集上进行推理，按照置信度排序总共生成5个标签。按照第一个标签预测计算正确率，即为Top1正确率；前五个标签中只要有一个是正确的标签，则视为正确预测，称为Top5正确率YOLOv3使用的backbone是Darknet-53，他是在YOLOv-2上改进的，加深了网络深度，同时引入了Resnet的跨层加和操作。1、yolov3中只有卷积层，通过调节卷积步长控制输出特征图的尺寸，所以对于输入图片没有特别限制。2、借鉴了金字塔思想

2021-08-17 15:05:35 175

原创 FPN论文阅读笔记

FPN论文笔记一、摘要二、引言三、金字塔结构1、自底向上2、自顶向下RPN结构一、摘要特征金字塔是识别系统中用于检测不同比例物体的基本组件。FPN是一种具有侧向连接（lateral connections）的自上而下的网络结构，用来构建不同尺寸的具有高级语义信息的特征图。二、引言针对识别尺寸差异很大物体的任务，论文总结了四种解决方法：1、利用图像金字塔构建特征金字塔优点：对每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，每层特征图都具有较强的语义信息。缺点：（1）推理时间大幅

2021-07-21 15:18:56 207

原创 YOLOv-2论文笔记

YOLOv-2是在YOLO的基础上添加了很多改进策略最后得出的，Batch NormalizationHigh Resolution Classifier：ImageNet数据集中的图像分辨率大都为224224，YOLO是在ImageNet上预训练后直接应用在448448上，这会使模型难以适应，而YOLOv-2是在ImageNet448*448上进行微调训练后，才进行在检测数据集上微调。Convolutional with anchor boxes ：采用faster rcnn中rpn生成ancho

2021-07-12 13:15:29 207

原创 2、End-to-End Object Detection with Transformers论文笔记

End-to-End Object Detection with Transformers一、摘要二、引言3、DETR模型3.1 集合预测损失一、摘要二、引言DETR(DEtection TR ansformer)目标检测可以预测出图片中物体的bbox与category，当前的检测算法都是在大量的proposals，anchors或者window centers上定义一个回归与分类问题来解决，因此这些模型会受限于处理近似重复的预测物体、anchor的创建、将bbox分配给anchor的启

2021-07-09 14:21:35 286 2

原创 SSD论文笔记

首先讲解一下one-stage与two-stage的不同：（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；（2）one-stage方法，如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快.

2021-07-08 15:47:10 97

原创吴恩达深度学习视频笔记

1、结构化数据与非结构化数据从上图可以看出，对于小规模的数据集，深度学习和机器学习它们的性能不一定谁好谁坏，只有在大规模上的数据集上时，深度学习才能体现出它更好的性能损失函数是针对于单个样本的，而代价函数是针对一个batch的，我们都是通过代价函数来实现参数的更新。下面是逻辑回归的代价函数计算，我们知道逻辑回归是一个二分类模型，它的最后一层的输出是经过sigmoid函数的，由于sigmoid的导数值最大时0.25，所以在进行梯度下降时容易梯度消失。并且它的损失函数，我们一般也不使用L2 los

2021-01-20 18:14:40 1464

原创 AlexNet Paper阅读笔记

1、计算机视觉领域最常用的三个数据集应用在ImageNet数据集中的各个任务1、Classification对于每张图片，模型需要给出5个可能的类别索引，计算的就是Top 5 Error

2020-12-16 11:19:36 228

原创吴恩达机器学习

1、监督学习回归、分类等2、无监督学习聚类等3、线性回归学习cost function代价函数其中，h(x)代表训练的函数，也叫假设函数，J(θ0，θ1)代表代价函数，最后一行的minimize J就是模型的目标函数。4、梯度下降求解参数gradient decent的特点：选择不同的初始点，可能会得到不同的“最优解”（当然是局部的）。正如上图所示。下面是梯度下降的公式：公式中的α是学习率，α越大，下山越快，反之则越慢。α前为什么是减号呢？这与后面的导数的符号有关，因为要保证函数值

2020-10-27 10:07:06 2204

原创神经网络学习

最近在看一些医疗信息学的论文,需要通过神经网络的学习来对肿瘤进行分割,这里我简单总结一下接触到的这些网络结构.1、RNNRNN(Recurrent Neural Network 循环神经网络)。它跟普通的连接神经网络有什么不同呢，即这个循环是什么意思呢？这里，简单举一个例子：当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。也即处理序列化的信息需要用到RNN。下.

2020-09-12 16:38:24 216

weixin_43981952的博客