碌碌无为的小张-CSDN博客

原创目标检测算法之RT-DETR

对RT-DETR的encoder部分，整体看下来像是yolo的backbone+neck。RT-DETR的核心还是在增速上，所以这里它的优化思想是值得借鉴的，但是yolo结构跟DETR结构之间的界限越来越模糊了。对query的优化上，只是做了对齐，使其选择的query更加精确。整体而言模型的创新不大。虽然DETR提倡的是NMS-Free，但是对于某些对精装度要求较高的任务中，如果阈值设置过低，导致最后得出的框过多，仍然需要借助NMS的方法去改进。设置过高则存在丢框的问题。

2024-06-27 17:30:42 3170

原创目标检测算法之损失函数（IOU、GIOU、DIOU、CIOU、EIOU）

CIOU是在DIOU的基础上考虑了长宽比，许多目标检测任务中，物体的长宽比相对比较固定，那么将它们考虑进损失函数中，理论上是有利于回归框收敛的。GIOU是IOU的改进方式，它在IOU的基础上，考虑了俩个框之间的位置关系，同时也解决了IOU为0时难以优化的问题。IOU是衡量俩个目标框之间重叠程度的一个指标，常用于目标检测中，用于评估预测框的准确率。IOU损失的缺点有俩个，第一个是不能描述俩个框之间的距离关系，只能描述重叠面积。对于没有交集的框，IoU 的值为 0，这会导致梯度为 0，难以优化。

2024-06-26 20:28:16 2051

原创目标检测算法之YOLO（YOLOv10）

第一个是头部进行改进，作者通过实验验证了改进回归头对模型的表现影响较大，然后分类头的参数和计算量是回归头的俩倍多，所以作者使用了俩个深度可分离卷积（ depthwise separable convolutions）替代了原来的分类头。具体的操作方式，就是先训练一个模型，然后对模型的每个阶段进行分析，选取秩最小的那个阶段，插入CIB模块，判断是否能带来AP增益，是的话则继续替换（替换过的不在参加），不然就直接输出。这个思想是值得借鉴的，在许多大参数量的模型中，借助这种方法可以实现参数量的下降。

2024-06-26 08:48:59 2224 2

原创目标检测算法之YOLO（YOLOv7）

从现在的角度去看yolov7，可以发现其ELAN的方法是有效的，在后续的版本中也多次被用到或者改进。而如今标签分配更多的是使用TAL策略。yolov7的热度明显不如yolov8，很多人在v7上fine-tune自己的数据集的效果甚至不如v5。不过这也是现如今新算法的一个普遍问题，许多算法过度追求SOTA从而导致模型的标签只能在某些数据集上取得较好的效果，所以对于新的算法更多的是去了解新的思想。然后在此基础上去创新或者调参，从而获得更好地模型效果。

2024-06-25 18:24:36 9702

原创目标检测算法之YOLO（YOLOv8）

其中卷积模块是使用了类似于ELAN的CSPlayer_2conv，分类头采用了解耦结构并使用了anchor-free的方法，损失函数中引入了VFL损失，标签分配采取了类似于yolov6的TAL方法，训练策略是采用最后10个epoch关闭Mosaic数据增强的方式。DFL的思想是基于回归任务预测的唯一性导致模型难以精确的回归到目标值上，转而通过求概率分布的方式，使预测值在目标出取得较大的概率，从而实现一种通过类似于“模糊”定位的方式提高模型收敛的速度，同时提高检测模型的准确率。这里只分析VFL的损失值。

2024-06-25 00:09:31 3641

原创目标检测算法之DETR

从上图可以发现DETR的模型结构比较简单，首先通过CNN层获取图像的特征图，然后与位置向量相加作为Transformer encoder的输入，然后固定object queries作为decoder的query，transformer encoder的输出作为key，value，最后输出。同时在原本的分类结果的基础上添加一个no object的类别，对于一些框分类为no object的，直接去除。通过论文的代码看出，作者是用的可学习的位置变量，不是用三角函数的绝对位置向量。是指所有可能的匹配序列。

2024-06-18 17:34:40 1334

原创目标检测算法之YOLO（YOLOv4、YOLOv5、YOLOv6）

本文是yolov1-yolov3（https://blog.csdn.net/weixin_52862386/article/details/139563416）的延续，所以有一些内容在上篇文章已经叙述，下面更多的叙述它们的改进和一些新的思想。yolo的损失函数特别多，主要的更新都是框的loss上做改进，所以后面再写一篇关于loss function的。

2024-06-17 17:26:26 513

原创目标检测之标签分配算法TOOD（TOOD: Task-aligned One-stage Object Detection）

TOOD算法在后来被许多经典算法引用，在yolov6和yolov8中使用了其ASL的方法，在ppyolo中在采用了T-head+ASL，说明了该算法具有强大的适应能力，能够应用于one-stage的目标检测算法中。

2024-06-17 16:33:07 2041

原创目标检测算法之YOLO（YOLOv1、YOLOv2、YOLOv3）

本文主要分析算法的模型结构和思想。同时，作者对它们做预测时不是直接采用Darknet输出的特征图，而是将尺度较小的特征图通过上采样的方式和特征图合并，然后进行预测，这种方式也可以认为是特征金字塔，可以加强对特征的提取。DarkNet的模型结构依旧采用了全卷积的方式，引入了残差连接的方式，增加的卷积的层数，模型结构变得更加复杂，整体而言跟DarkNet-19的变化不是很大。的特征图能较好地学习大目标地特征，但对小目标的学习是不够的，所以提出了passthrough的方式，类似于resnet中的残差连接，将。

2024-06-13 16:58:44 1137

原创文字识别SVTR算法

然后经过了三个Stage，其中Stage1和Stage2是一样的，其中Mixing Blocks是合并了Local信息和Global信息，然后通过Merging模型实现图像的高度减半。Mixing Blocks是考虑了在文字识别中，文字的识别通常受全局的影响，同时全局的特征可以使不清晰的局部具备更丰富的特征信息，从而提高识别能力。可以发现Global Mixing是一个普通的self attention，Local Mixing则是增加了一个mask，这里的mask代码可以自己分析一下。

2024-06-07 15:11:43 1467 1

原创 Swin-transformer

Swin-Transformer是一个基于transformer的特征提取模型，它实现了类似于卷积神经的效果，同时有通过shift的操作实现了CNN中stride的效果，相较于ViT具备更低的计算复杂度且具备更好的图像特征学习能力，后来的许多图像任务中都能看到swin-transformer，说明了其具备优良的特征提取能力以及良好的通用性。

2024-06-06 14:50:04 1343

原创马尔可夫决策过程（MDP）

即不同的action会得到不同的reward，而我们的目的是寻求最优的action序列，从而使reward达到最高。所以从马尔科夫链的角度我们认为当前状态仅与前一个状态或前几个状态有关，这样会极大的简化我们的计算，同时由于之前的状态会考虑更前的状态，所以我们是可以这样假设的，即。是指衰减，即从现在的角度看未来的几手棋的单手得分对现在的影响是会随着步数的增加而减少的。在这里policy是具有随机性的，即给定状态后，是有可能执行不同的action，而非给定一个状态之后只执行一个action。

2024-05-28 13:57:27 2529

原创 Rotary Position Embedding(RoPE)原理推导和详解

在《Attention is all your need》中使用了absolute position embedding，且在论文中验证了嵌入位置向量是有效的，所以位置向量的概念渐渐的引入人们的视角里。目前主要的向量编码有俩种，分别是绝对位置编码和相对位置编码。其中绝对位置编码的优点就是直观，可以将token的位置信息直接嵌入，但缺点也比较明显的，长度固定，且在计算时不好考虑token相对位置之间的关系。同理，相对位置编码的优势就是能够兼容变长序列且能够考虑到不同token相对位置的关系，很好地解决了绝对

2024-05-18 16:37:34 426

原创 Word2vec算法原理

在CBOW中，通过较小的上下文窗口去预测中心词是比较难的，因为上下文窗口无法提供足够丰富的上下文，那么去预测中心词的话效果理所应当比较差。结合Bert算法来看的话，它的模型设计跟CBOW更加相似，但是它考虑的上下文语意是更加丰富的，模型也更加复杂。它的算法思想是基于词的上下文进行学习，使语义相近的词距离更近，使词向量的表达能力更强。然后将向量相加就可以得到一个上下文的表征向量，在对其做分类预测，这样就完成基于上下文预测中心词的任务。CBOW是基于当前词的上下文来预测当前词，从而学习词向量的方法。

2024-03-18 18:30:54 1800 1

原创 Bert算法原理详解

随着迁移学习的兴起，在计算机视觉领域中出现了各种各样的预训练模型，它们可以通过简单的微调在下游任务上取得良好的效果。例如Word2vec、Glove，它们的输出的是固定词向量（每个词对应的向量是固定的），所以在不同的上下文场景中缺乏足够强的表征能力；例如Elmo，它通过Bidirectional LSTM来学习文本的上下文特征，但由于LSTM的模型特点，使其难以兼顾长文本中相距较长的词之间的联系。Bert是基于transfomer结构中的Encoder模块，对文本的上下文进行学习，从而获取动态的文本向量。

2024-03-12 12:31:18 1014 1

原创条件随机场原理（CRF）

条件随机场（Conditional Random Fiedl）是指给定一组输入的随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。条件随机场打破了隐马尔可夫模型的俩个假设（观测独立性假设和齐次马尔可夫性假设），使输入向量和输出向量之间的关系更加明显，从而使其在文本处理等问题上的表现更加优越。概率无向图模型又称马尔可夫随机场，它是一个可以由无向图表示的联合概率分布。设无向图G=(V,E)G=(V,E)G=(V,E)表示概率分布P(Y)P(Y)P(Y)，其中结v∈V

2023-06-03 01:38:44 2122 1

原创 HMM算法原理

隐马尔可夫模型 (HMM) 是一种用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，是一种生成模型。其被广泛的应用于语音识别、生物信息、模式识别和自然语言处理等领域。隐马尔可夫模型是关于时序的概率模型，描述了一个由隐藏的马尔可夫观测随机序列的过程。隐藏的马尔可夫链随机生成的序列称为状态序列记为I=(i1,i2,⋯ ,iT)I=(i_{1},i_{2},\cdots,i_{T})I=(i1,i2,⋯,iT)每个状态会生成一个观测，故将生成的观测序列记为O=(o1,o2,⋯ ,

2023-05-31 12:28:44 721 1

原创 Transformer原理详解和代码

多头注意力机制是transformer的主要创新点，它摒弃了传统卷积神经网络和神经网络的思想，通过 Scaled Dot-Product Attention实现了信息交互，但一次性使用scle dot attention对计算机计算和信息交互而言效果并不好，所以对embedding向量进行映射，映射为等长的向量。Transfomrer目前的火热主要来源于其self-attention，它的设计非常符合人类，许多transformer的变体也是基于self-attention的基础上，进行各种的变换。

2023-05-29 14:51:53 4936 3

原创 CTC算法原理详解

CTC(Connectionist Temporal Classification)算法是一个用于OCR（文字识别）、ASR（语言识别）等任务场景的算法，主要用于解决输入序列和输入序列长度不一，难以对齐的问题。它提出了一种新的对齐方式，将输出序列切分为多个时间段，通过制定一定的处理规则来实现序列对齐的问题。由于我们的目的是使与真实结果路径的概率最大，即使PY∣XP(Y|X)PY∣X的概率达到最大。

2023-05-25 00:49:52 3632 1