自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 目标检测算法之YOLO(YOLOv8)

其中卷积模块是使用了类似于ELAN的CSPlayer_2conv,分类头采用了解耦结构并使用了anchor-free的方法,损失函数中引入了VFL损失,标签分配采取了类似于yolov6的TAL方法,训练策略是采用最后10个epoch关闭Mosaic数据增强的方式。DFL的思想是基于回归任务预测的唯一性导致模型难以精确的回归到目标值上,转而通过求概率分布的方式,使预测值在目标出取得较大的概率,从而实现一种通过类似于“模糊”定位的方式提高模型收敛的速度,同时提高检测模型的准确率。这里只分析VFL的损失值。

2024-06-25 00:09:31 372

原创 目标检测算法之DETR

从上图可以发现DETR的模型结构比较简单,首先通过CNN层获取图像的特征图,然后与位置向量相加作为Transformer encoder的输入,然后固定object queries作为decoder的query,transformer encoder的输出作为key,value,最后输出。同时在原本的分类结果的基础上添加一个no object的类别,对于一些框分类为no object的,直接去除。通过论文的代码看出,作者是用的可学习的位置变量,不是用三角函数的绝对位置向量。是指所有可能的匹配序列。

2024-06-18 17:34:40 1003

原创 目标检测算法之YOLO(YOLOv4、YOLOv5、YOLOv6)

本文是yolov1-yolov3(https://blog.csdn.net/weixin_52862386/article/details/139563416)的延续,所以有一些内容在上篇文章已经叙述,下面更多的叙述它们的改进和一些新的思想。yolo的损失函数特别多,主要的更新都是框的loss上做改进,所以后面再写一篇关于loss function的。

2024-06-17 17:26:26 348

原创 目标检测之标签分配算法TOOD(TOOD: Task-aligned One-stage Object Detection)

TOOD算法在后来被许多经典算法引用,在yolov6和yolov8中使用了其ASL的方法,在ppyolo中在采用了T-head+ASL,说明了该算法具有强大的适应能力,能够应用于one-stage的目标检测算法中。

2024-06-17 16:33:07 813

原创 目标检测算法之YOLO(YOLOv1、YOLOv2、YOLOv3)

本文主要分析算法的模型结构和思想。同时,作者对它们做预测时不是直接采用Darknet输出的特征图,而是将尺度较小的特征图通过上采样的方式和特征图合并,然后进行预测,这种方式也可以认为是特征金字塔,可以加强对特征的提取。DarkNet的模型结构依旧采用了全卷积的方式,引入了残差连接的方式,增加的卷积的层数,模型结构变得更加复杂,整体而言跟DarkNet-19的变化不是很大。的特征图能较好地学习大目标地特征,但对小目标的学习是不够的,所以提出了passthrough的方式,类似于resnet中的残差连接,将。

2024-06-13 16:58:44 599

原创 文字识别SVTR算法

然后经过了三个Stage,其中Stage1和Stage2是一样的,其中Mixing Blocks是合并了Local信息和Global信息,然后通过Merging模型实现图像的高度减半。Mixing Blocks是考虑了在文字识别中,文字的识别通常受全局的影响,同时全局的特征可以使不清晰的局部具备更丰富的特征信息,从而提高识别能力。可以发现Global Mixing是一个普通的self attention,Local Mixing则是增加了一个mask,这里的mask代码可以自己分析一下。

2024-06-07 15:11:43 589

原创 Swin-transformer

Swin-Transformer是一个基于transformer的特征提取模型,它实现了类似于卷积神经的效果,同时有通过shift的操作实现了CNN中stride的效果,相较于ViT具备更低的计算复杂度且具备更好的图像特征学习能力,后来的许多图像任务中都能看到swin-transformer,说明了其具备优良的特征提取能力以及良好的通用性。

2024-06-06 14:50:04 656

原创 马尔可夫决策过程(MDP)

即不同的action会得到不同的reward,而我们的目的是寻求最优的action序列,从而使reward达到最高。所以从马尔科夫链的角度我们认为当前状态仅与前一个状态或前几个状态有关,这样会极大的简化我们的计算,同时由于之前的状态会考虑更前的状态,所以我们是可以这样假设的,即。是指衰减,即从现在的角度看未来的几手棋的单手得分对现在的影响是会随着步数的增加而减少的。在这里policy是具有随机性的,即给定状态后,是有可能执行不同的action,而非给定一个状态之后只执行一个action。

2024-05-28 13:57:27 802

原创 Rotary Position Embedding(RoPE)原理推导和详解

在《Attention is all your need》 中使用了absolute position embedding,且在论文中验证了嵌入位置向量是有效的,所以位置向量的概念渐渐的引入人们的视角里。目前主要的向量编码有俩种,分别是绝对位置编码和相对位置编码。其中绝对位置编码的优点就是直观,可以将token的位置信息直接嵌入,但缺点也比较明显的,长度固定,且在计算时不好考虑token相对位置之间的关系。同理,相对位置编码的优势就是能够兼容变长序列且能够考虑到不同token相对位置的关系,很好地解决了绝对

2024-05-18 16:37:34 163

原创 Word2vec算法原理

在CBOW中,通过较小的上下文窗口去预测中心词是比较难的,因为上下文窗口无法提供足够丰富的上下文,那么去预测中心词的话效果理所应当比较差。结合Bert算法来看的话,它的模型设计跟CBOW更加相似,但是它考虑的上下文语意是更加丰富的,模型也更加复杂。它的算法思想是基于词的上下文进行学习,使语义相近的词距离更近,使词向量的表达能力更强。然后将向量相加就可以得到一个上下文的表征向量,在对其做分类预测,这样就完成基于上下文预测中心词的任务。CBOW是基于当前词的上下文来预测当前词,从而学习词向量的方法。

2024-03-18 18:30:54 1564 1

原创 Bert算法原理详解

随着迁移学习的兴起,在计算机视觉领域中出现了各种各样的预训练模型,它们可以通过简单的微调在下游任务上取得良好的效果。例如Word2vec、Glove,它们的输出的是固定词向量(每个词对应的向量是固定的),所以在不同的上下文场景中缺乏足够强的表征能力;例如Elmo,它通过Bidirectional LSTM来学习文本的上下文特征,但由于LSTM的模型特点,使其难以兼顾长文本中相距较长的词之间的联系。Bert是基于transfomer结构中的Encoder模块,对文本的上下文进行学习,从而获取动态的文本向量。

2024-03-12 12:31:18 844 1

原创 条件随机场原理(CRF)

条件随机场(Conditional Random Fiedl)是指给定一组输入的随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场打破了隐马尔可夫模型的俩个假设(观测独立性假设和齐次马尔可夫性假设),使输入向量和输出向量之间的关系更加明显,从而使其在文本处理等问题上的表现更加优越。概率无向图模型又称马尔可夫随机场,它是一个可以由无向图表示的联合概率分布。设无向图G=(V,E)G=(V,E)G=(V,E)表示概率分布P(Y)P(Y)P(Y),其中结v∈V

2023-06-03 01:38:44 458 1

原创 HMM算法原理

隐马尔可夫模型 (HMM) 是一种用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,是一种生成模型。其被广泛的应用于语音识别、生物信息、模式识别和自然语言处理等领域。隐马尔可夫模型是关于时序的概率模型,描述了一个由隐藏的马尔可夫观测随机序列的过程。隐藏的马尔可夫链随机生成的序列称为状态序列记为I=(i1,i2,⋯ ,iT)I=(i_{1},i_{2},\cdots,i_{T})I=(i1​,i2​,⋯,iT​)每个状态会生成一个观测,故将生成的观测序列记为O=(o1,o2,⋯ ,

2023-05-31 12:28:44 459

原创 Transformer原理详解和代码

多头注意力机制是transformer的主要创新点,它摒弃了传统卷积神经网络和神经网络的思想,通过 Scaled Dot-Product Attention实现了信息交互,但一次性使用scle dot attention对计算机计算和信息交互而言效果并不好,所以对embedding向量进行映射,映射为等长的向量。Transfomrer目前的火热主要来源于其self-attention,它的设计非常符合人类,许多transformer的变体也是基于self-attention的基础上,进行各种的变换。

2023-05-29 14:51:53 3897 3

原创 CTC算法原理详解

CTC(Connectionist Temporal Classification)算法是一个用于OCR(文字识别)、ASR(语言识别)等任务场景的算法,主要用于解决输入序列和输入序列长度不一,难以对齐的问题。它提出了一种新的对齐方式,将输出序列切分为多个时间段,通过制定一定的处理规则来实现序列对齐的问题。由于我们的目的是使与真实结果路径的概率最大,即使PY∣XP(Y|X)PY∣X的概率达到最大。

2023-05-25 00:49:52 2244 1

原创 EM算法原理和推导

本文详细描述了EM算法的导出过程(推导比较详细容易理解)以及算法收敛的证明

2023-01-02 15:15:42 532 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除