zyw2002-CSDN博客

原创 Mamba 基础讲解【SSM,LSSL,S4,S5,Mamba】

🐍 Mamba是一种状态空间模型(SSM)架构，它改进了S4架构。选择性扫描算法(selective scan algorithm），允许模型过滤相关或者不相关的信息硬件感知的算法(hardware-aware algorithm)，允许通过并行扫描(parallel scan)、核融合(kernel fusion)和重计算(recomputation)有效地存储(中间)结果。

2024-03-21 10:41:08 53380 26

原创 YOLOv8详解【网络结构+代码+实操】

YOLOv8 算法的核心特性和改动可以归结为如下：提供了一个全新的 SOTA 模型，包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样，基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型，用于满足不同场景需求Backbone骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想，将 YOLOv5 的C3结构换成了梯度流更丰富的C2f结构，并对不同尺度模型调整了不同的通道数。

2023-03-01 14:56:32 354063 106

原创详解注意力机制和Transformer

本文的学习路线：📍 Attention从生物学的角度引入到计算机视角，介绍了什么是Attention ▶️介绍Encoder-Decoder框架 (目前大部分Attention Model都是依附于该框架实现)▶️ 介绍了Attention模型中的基础概念查询、键和值 ▶️ 通过讲解Nadaraya-Watson核回归模型来了解常见的注意力汇聚模型 ▶️ 介绍了Attention Model中两个常用的注意力评分函数 ▶️ 从基础的Attention引入到Self-Attention 和Multihe

2023-01-31 20:50:03 16767 6

原创深度学习中的卷积操作

本文从信号处理中的`互相关运算`引入`深度学习中的卷积`。然后介绍了`不同的卷积类型`，以及如何在`pytorch`中使用这些卷积层。

2022-12-14 16:26:23 4297 7

原创 LLava 代码实操

llava 实操

2025-02-06 10:27:04 1351

原创【Efficient AIGC】SiTo: Similarity-based Token Pruning (AAAI-2025)

扩散模型在图像生成中的卓越表现总是伴随着巨大的计算成本，这使得扩散模型在边缘设备和交互式应用中的应用受到了限制。之前的研究主要集中于减少采样步数和压缩扩散模型的去噪网络，而本文提出了一种通过引入SiTo方法来加速扩散模型的方案。SiTo是一种基于相似性的令牌剪枝方法，它自适应地剪去输入数据中的冗余令牌。SiTo旨在通过使用廉价且硬件友好的操作，最大化模型预测结果在进行和不进行令牌剪枝时的相似性，从而实现显著的加速效果，而不会降低性能，甚至在某些情况下还能提高生成质量。

2025-01-20 22:55:20 1353

原创【视频生成模型】——Hunyuan-video 论文及代码讲解和实操

HunyuanVideo 是一款全新的开源视频生成基础模型，其生成性能可与业内顶尖的闭源模型媲美。拥有超过 130 亿个参数，是当前规模最大的开源视频生成模型。该模型集成了数据精选（）、高级架构设计()、渐进式模型扩展与训练（），以及高效的基础设施 ()，以支持大规模模型训练与推理。HunyuanVideo 在视频生成的四个关键方面表现出色：、、和。专业评测显示，HunyuanVideo 的表现优于 Runway Gen-3、Luma 1.6 以及其他三款顶尖的中文视频生成模型。通过开源模型代码和应

2024-12-14 22:14:02 4934

原创 Diffusion Model, Stable Diffusion, Stable Diffusion XL 详解

常见的生成模型有：文生图模型的基本架构如下：衡量图像生成质量的指标基于上述思想，Denoising diffusion 模型包括两个过程：首先，我们先来介绍一下如何破坏数据分布。如果我们取任何一幅图像（上图a），它具有某种非随机分布。我们不知道这个分布，但我们的目标是破坏它，我们可以通过向其添加噪声来实现。在这个过程的最后，我们应该得到类似于纯噪声的噪声（上图b）。前向扩散过程的每一步被定义为q(xt∣xt−1)=N(xt,1−βtxt−1,βtI)q(x_t|x_{t-1})= \mathcal{N}

2024-05-27 19:31:15 3715 3

原创 DenseCLIP论文讲解

提出背景现有的方法大多数用CLIP预训练模型来解决分类任务，但是很少应用在密集预测的任务上。本文就主要研究如何微调预训练的CLIP模型，使其可以应用于密集预测任务困难挑战与传统的ImageNet预训练模型相比，最大的挑战是上游对比预训练任务和下游逐像素预测任务之间的gap，前者涉及图像和文本的实例级表示，而后者仅基于像素级的视觉信息。解决思路为了解决上述问题，通过隐式和显式地利用来自CLIP的预训练知识，提出了一个语言引导的密集预测框架：DenseCLIP。该框架是模型不可知（）且即插即用（

2024-05-09 16:52:09 1173

原创 BLIP和BLIP2 论文讲解

通过将Q-Former的输出连接到一个冻结的LLM来执行视觉到语言的生成学习，并训练Q-Former，使其输出的视觉表示可以被LLM解释。ITM是一个二元分类任务，其中模型使用ITM头(线性层)来预测给定图像-文本对的多模态特征是正的(匹配的)还是负的(不匹配的)。它的目的是通过鼓励positive的图像-文本具有相似的表示 (相反，使得negtive的图像文本队具有不同的表示) 来。它们作为软视觉提示（，我们将QFormer （包括冻结图像编码器) 连接到冻结的LLM，以获取LLM的生成语言能力。

2024-05-09 10:59:56 2596

原创 CLIP论文讲解和代码实操

研究动机作者的研究动机就是在 NLP 领域利用大规模数据去预训练模型，而且用这种跟下游任务无关的训练方式，NLP 那边取得了非常革命性的成功，比如 GPT-3。作者希望把 NLP 中的这种成功应用到其他领域，如视觉领域。在预训练时 CLIP 使用了对比学习，利用文本的提示去做 zero-shot 迁移学习。在大规模数据集和大模型的双向加持下，CLIP 的性能可以与特定任务的有监督训练出来的模型竞争，同时也有很大的改进空间。CLIP 概述。

2024-04-17 14:11:49 7389 4

原创 Mamba复现与代码解读

下图是Mamba论文中的算法介绍：上图中算法的核心是第5步和第6步：第5步是对连续的矩阵A,B进行离散化得到离散化后的矩阵。

2024-03-23 15:08:07 38551 30

原创论文详解——《Deep Color Consistent Network for Low-Light Image Enhancement》

微光图像增强(LLIE)研究了如何细化光照，获得自然的正常光照图像。目前的LLIE方法主要侧重于提高光照，而没有合理地将颜色信息纳入LLIE过程中来考虑颜色的一致性。因此，增强后的图像与地面真值之间往往存在色差。为了解决这个问题，我们提出了一种新的深颜色一致性网络，称为DCC-Net，以保持LLIE的颜色一致性。提出了一种新的“分而治之”的协同策略，该策略可以共同保存颜色信息，同时增强光照。具体来说，我们的DCC-Net解耦策略将每个彩色图像解耦为两个主要成分，即灰度图像和颜色直方图。

2023-08-23 16:20:42 1680

原创论文详解——《Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement》

弱光图像增强(LLIE)研究如何提高照明和产生正常光图像。现有的方法大多采用全局统一的方式对微光图像进行改进，而没有考虑不同区域的语义信息。如果没有语义先验，网络很容易偏离区域的原始颜色。为了解决这一问题，我们提出了一种新的语义感知知识引导框架(semantic-aware knowledge-guided framework, SKF)，该框架可以帮助弱光增强模型学习包含在语义分割模型中的丰富和多样化的先验。我们专注于从三个关键方面整合语义知识 :一个。

2023-08-23 10:43:32 3129

原创论文及代码详解——Restormer

由于对大补丁的训练需要花费更长的时间，所以随着补丁大小的增加，我们减少了批处理的大小，以便在每个优化步骤中保持与固定补丁训练相同的时间。在代码实现上，用于生成k,q,v的三条支路中的1x1的卷积(point-wise)和3x3的Dconv(depth-wise) 是在原始输入上一起做的，完成后再在通道维度分成三块。但是在代码实现部分，两条支路中的1x1的卷积(point-wise)和3x3的Dconv(depth-wise) 是在原始输入上一起做的，完成后再在通道维度分成两块。

2023-08-22 17:32:39 5820 1

原创论文及代码详解——HRNet

让我们看一个融合3-resolution representations的例子，如图3所示。我们从一个高分辨率的卷积流作为第一阶段，逐步将高分辨率到低分辨率的流逐个添加，形成新的阶段，并将多分辨率流并行连接。因此，后一阶段并行流的分辨率由前一阶段的分辨率和一个更低的分辨率组成。我们通过bilinear upsampling对低分辨率表示进行缩放，而不改变高分辨率的通道数，并将四种表示连接起来，然后进行1 × 1卷积来混合这四种表示。定义了一个3x3的卷积，当stride=1时，输出大小不变。

2023-08-21 21:56:29 2775

原创 YOLOv8改进——引入可变形卷积DCNv3

本文只讲解在YOLOv8的代码中添加DCNv3的操作流程, 具体的原理参见上述的链接~是pytorch实现的版本，只要基础的pytorch环境安装正确就不会出错。是C++实现版本，必须先在上一步编译成功，或者安装好了轮子，否则会报错。但是在实际的训练过程中，C++版本的运行速度更快，推荐使用C++版本。(具体怎么修改，都可以自己决定，然后通过实验看看效果如何)文件夹，该文件夹下的内容就是实现DCNv3算子的核心代码。中，下图中的列表里添加。

2023-08-21 12:45:59 27939 121

原创代码详解——可变形卷积（DCNv3）

如下图，首先下载InterImage官方代码，然后在segmentation、detection、classification文件夹下均可以找到ops_dcnv3文件夹，该文件夹下的内容就是实现DCNv3算子的核心代码。modules如下图所示,modules文件夹中的dcnv3.py文件主要定义了DCNv3模块。其中是DCNv3的pytorch实现版本，DCNv3是DCNv3的C++实现版本。functions如下图所示，function文件夹中的文件定义了DCNv3的一些核心操作。

2023-08-21 10:35:45 20289 18

原创论文详解——《InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

原文翻译摘要与近年来large-scale vision Transformer(ViTs)取得的巨大进展相比，基于卷积神经网络(cnn)的大型模型尚处于早期阶段。本文提出了一种新的large-scale CNN-based foundation model，称为。类似于VIT，该模型可以通过增加参数和训练数据获得增益。与最近的CNN聚焦于large dense kernels不同，

2023-08-18 10:02:34 8073

原创论文及代码详解——可变形卷积（DCNv2）

DCNv2 是在DCNv1的基础上的改进版。理解DCNv2之前，建议先读。

2023-08-17 21:33:50 15183 2

原创论文及代码详解——可变形卷积（DCNv1）

这四对坐标每个坐标都对应U中的一个像素值, 而我们需要得到(a,b)的像素值, 这里采用双线性差值的方式计算, 因为一方面得到的像素准确, 另一方面可以进行反向传播。DCN的卷积过程和普通卷积一样，如上图所示，假设有个2x2的kernel, 它也是以一个2x2的滑窗的形式（绿色的框）在原始图片上从左到右，从上到下进行滑动。采样点的像素值和上文中提到的可变形卷积中的一样，也是通过双线性插值得到的。它的每roi计算成本可以忽略不计。我们实验了不同数量的这类层，发现3是不同任务的一个很好的权衡，如表1所示。

2023-08-17 19:54:53 9754 2

原创发明专利写作模板和指导以及案例分析

写作模板：发明名称一种(基于)xxx的xxx方法发明摘要本发明公开了一种xxx的方法，（1. 先简要概况发明的内容）（2. 讲述本发明解决了什么技术问题）（3. 获得了什么样的有益效果）写作指导说明书摘要就是本发明的方案概述以及达到的技术效果，不能超过300字。写作套路就是把权利要求1概括一下再增加一些技术效果，这个一般写完权利要求再写；案例分析案例一：（一种基于多尺度注意力机制网络模型的语义交通信号灯检测方法）写作指导。

2023-08-15 19:42:19 37976 7

原创代码详解 —— VGG Loss

可以把VGG网络看成是数个vgg_block的堆叠，每个vgg_block由几个卷积层+ReLU层，最后加上一层池化层组成。VGG网络名称后面的数字表示整个网络中包含参数层的数量（卷积层或全连接层，不含池化层），如图所示。假设输入分别是x和y，vgg loss 的值就是分别将x和y将5个sclice输出计算loss，一共有5个loss。VGG网络采用重复堆叠的小卷积核替代大卷积核，在保证具有相同感受野的条件下，提升了网络的深度，从而提升网络特征提取的能力。，对应着VGG19中的各个网络层。

2023-08-14 10:29:09 3786

原创 SR中的常见的损失函数

广泛的MOS测试(第2.3.3节)表明，尽管使用对抗损失和内容损失训练的SR模型比使用像素损失训练的SR模型获得更低的PSNR，但它们在感知质量[8]，[25]上有显著的提高。实际上，该鉴别器提取了真实HR图像中一些难以学习的潜在模式，并推动生成的HR图像符合，从而有助于生成更真实的图像。与上述研究关注对抗损失的具体形式不同，Park等人[133]认为像素级鉴别器导致产生无意义的高频噪声，并附加另一个特征级鉴别器对经过预处理的CNN提取的高级表示进行操作，该CNN能够捕获真实HR图像中更有意义的属性。

2023-08-14 09:15:40 1591

原创论文及代码详解 ——《SNR-Aware Low-light Image Enhancement》

本文提出了一种新的弱光图像增强解决方案，通过综合利用和，利用空间变化操作动态增强像素。它们是对极低信噪比(SNR)图像区域的long-range操作和对其他区域的操作。我们提出在引导特征融合之前先考虑信噪比，并利用一种新的自注意模型构建SNR-aware Transformer，以避免来自极低信噪比的噪声图像区域的token。大量的实验表明，在7个具有代表性的基准测试中，我们的框架始终比SOTA方法获得更好的性能。

2023-08-13 19:34:33 6308

原创代码详解——Transformer

对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。当 Decoder 的输入矩阵和 Mask 矩阵输入矩阵包含 “ I have a cat” (0, 1, 2, 3, 4) 五个单词的表示向量，Mask 是一个 5×5 的矩阵。然后判断是否传入的mask, 如果有mask (mask参数值不为None)，则把mask为0的位置，将对应位置的attn的值设为无穷小的负数。可以发现得到的输出和输入的K,Q,V的大小相同。

2023-08-13 15:30:42 6217 2

原创【torch.nn : Pooling Layers】

功能：计算MaxPool2d的逆运算（MaxPool2d并不是完全可逆的，因为部分非最大的信息是丢失的）功能：在由几个输入平面组成的输入信号上应用二维自适应平均池化。对于任何输入大小，输出的大小均是。组成的元组——在这种情况下，第一个int用于表示高度维度，第二个int用于表示宽度维度。或者在output_size中的call operator中给出。功能：在由几个输入平面组成的输入信号上应用2D最大池化。在由几个输入平面组成的输入信号上应用二维平均池化。输出的特征数等于与输入平面的数量。

2023-08-11 11:01:55 302

原创超分任务中常见的上采样方式

而灰度值未知的插值点 (x, y)，根据双线性插值法的约束，可以先由像素坐标点 (x0, y0) 和 (x0, y1) 在 y 轴向作一维线性插值得到 f(x0, y)、由像素坐标点 (x1, y0) 和 (x1, y1) 在 y 轴向作一维线性插值得到 f(x1, y)，然后再由 (x0, y) 和 (x1, y) 在 x 轴向作一维线性插值得到插值点 (x, y) 的灰度值 f(x, y)。例如，插值点 x 坐落于坐标点 xi 的邻域，那么其值 f(x) 就等于 f(xi)。

2023-08-11 10:51:38 1055

原创超分算法ESPCN：《Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel》

提出了一种新的上采样方式，对于SR(super-resolution) 任务的计算速度和重建效果都有不错的提升。文章推出了一种在以往算法(SRCNN、Bicubic)上对于重建表现力以及计算效率(重建速度、计算资源损耗)都有一定提升的SR算法——ESPCN。SRCNN先对输入图像做Bicubic插值，然后进行特征提取，这种方式相当于直接在HR层面做超分，作者证明这种方式是一种次优策略且会带来计算复杂度的提升。这是一种直接对输入LR图像做特征提取。在网络中引入了一种亚像素卷积层。

2023-08-10 09:57:05 1863

原创【torch.nn.PixelShuffle】和【torch.nn.UnpixelShuffle】

PixelUnshuffle就是PixelShuffle的逆操作。如下图可以看到，PixelShuffle是把输入通道按照缩放因子。PixelShuffle是一种上采样方法，它将形状为。功能：是PixelShuffle的逆操作，把大小为。输入的第二组（后4个通道）中的元素，每次间隔。，PixelShuffle的缩放因子是。交错排列，合并成输出的第一个通道维度。交错排列，合并成输出通道的第二个维度。是 0 或者batch大小。的张量重新排列转换为形状为。通道）中的元素，每次间隔。的张量重新排列为大小为。

2023-08-09 21:20:57 9281 3

原创【torch.nn.Fold】和【torch.nn.Unfold】

toch.nn.Fold 就是torch.nn.Unfold的逆操作，将提取出的滑动局部区域块还原成batch的张量形式。该操作将输入空间维度内的每个kernel_size大小的滑动块展平到一列中, 输出的大小为。（也就是卷积操作中的提取kernel filter对应的滑动窗口）把它按照顺序展开，得到的特征数就是。表示每个block中包含的所有值的个数，一个block是kernel_size的面积和通道数的乘积，torhc.nn.Unfold的功能：从一个batch的样本中，提取出滑动的局部区域块。

2023-08-09 15:13:26 1073

原创深度学习的训练、验证、测试的模板代码

从头搭建一个深度学习的模型，基本上都可以从这个框架去套用。包括了最基础的模型的定义、训练、验证和测试。

2023-08-02 13:53:53 4069

原创图像处理库（Opencv, Matplotlib, PIL）以及三者之间的转换

将tensor或ndarray转换为PIL图像——这不会缩放值。将PIL图像或ndarray转换为tensor，并相应地缩放。将PIL图像转换为相同类型的张量-这不会缩放值。opencv的基本图像类型可以和numpy数组相互转化，因此可以直接调用。如果是RGBA图像，返回(H.W, 4) 形状的数组, 图片通道顺序为。如果是RGB图像，返回(H, W, 3) 形状的数组,图片通道顺序为。在其他情况下，张量在不缩放的情况下返回。如果是灰度图：返回(H,W)形状的数组。图像的模式如下图，比如。

2023-08-01 22:33:16 3837 1

原创正负样本分配策略（OTA, SimOTA，TAS）

SimOTA可以理解为是一种匹配策略的方法，可以看成是一个最优传输的问题。举一个通俗易懂的例子就是，有2个分配基地与6个周围城市，现在需要考虑一个最优的配送方式来确保分配东西到这几个城市的运输成本是最低的。而对于目标检测来说，这个最优传输问题也就是一个最优分配问题，如何实现把这些anchor point分配给gt的代价 (cost) 是最低的。这个代价就是iou损失，分类损失等内容。

2023-08-01 22:29:07 2228 1

原创 NMS系列(NMS,Soft-NMS,Weighted-NMS,IOU-Guided NMS,Softer-NMS,Adaptive NMS,DIOU NMS,Cluster NMS)

根据是否需要训练分类不需要训练的NMS方法（NMS、Soft-NMS、Weighted-NMS、Cluster-NMS）需要训练的NMS（ConvNMS、PureNMS、 IOU-GuidedNMS、AdaptiveNMS）根据改进策略进行分类带权重的NMS(Soft NMS, Softer NMS，Weighted NMS)考虑定位的NMS(IOU-Guided NMS)阈值自适应的NMS(Adaptive NMS)并行的NMS(Fast NMS, Cluster NMS)

2023-03-10 15:32:35 3580 3

原创目标检测中回归损失函数（L1Loss,L2Loss,Smooth L1Loss,IOU,GIOU,DIOU,CIOU,EIOU,αIOU ,SIOU)

为了解决CIoU的问题，有学者在CIOU的基础上将纵横比拆开，提出了EIOU Loss，并且加入Focal聚焦优质的预测框，与CIoU相似的，EIoU是损失函数的解决方案，只用于训练。在错误率小的地方，梯度的值也应当小，反之在错误率大的地方，梯度也应当大，因为这时候我们需要对错误率小的情况进行微调，而错误率大的地方进行大刀阔斧的调整；如下图所示，三种情况IoU都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。DIoU的作者考虑到，在两个框中心点重合时，c与d的值都不变。

2023-03-04 21:27:59 6049 3

数据库课程设计——论坛系统

空空如也