丁希希哇-CSDN博客

原创【论文精读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

CogVideoX采用的显式均匀采样（Explicit Uniform Sampling）将区间划分并分配给不同计算节点，强制确保了每个训练步都能在全局上真正实现均匀采样。其中，空间注意力处理单帧内的视觉关系（类似图像生成），时间注意力处理帧与帧之间的时序关系。其核心目标是生成高分辨率（768×1360像素）、长时长（10秒）、高帧率（16fps）且与文本提示高度对齐的视频。因此，CogVideoX提出3D-RoPE。）和时间维度（帧序号。

2025-09-30 19:51:06 553

原创【论文精读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 采用滑动窗口的层次化Transformer

一些更“朴素”的滑动窗口方法会为每个查询像素都计算一个以其为中心的局部窗口。Swin Transformer 块保留了标准 Transformer 块的核心骨架，但将其核心的“全局自注意力”机制替换成了专为图像设计的“基于移位窗口的自注意力”机制。原始 Transformer的自注意力计算复杂度是图像大小的二次方，因此无法直接处理高分辨率的图像，限制了其在密集预测任务（如目标检测、语义分割）中的应用，因为这些任务恰恰需要高分辨率的特征图来进行精确定位。高分辨率意味着巨大的序列长度。

2025-09-26 19:38:31 948

原创模型的量化（Quantization）

其核心思想是将模型中的浮点数参数（通常是32位浮点数）转化为低精度的数值表示（如8位、16位整数等），也就是说，使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。但是如果你的GPU无法处理如此大的模型，那么从GPTQ开始切换到以cpu为中心的方法(如GGUF)是绝对值得的。AWQ和GPTQ作为方法有几个不同之处，但最重要的是AWQ假设并非所有权重对LLM的性能都同等重要，也就是说在量化过程中会跳过一小部分权重，这有助于减轻量化损失。

2024-12-25 23:10:36 2493 1

原创 TensorFlow代码逻辑 vs PyTorch代码逻辑

return x在TensorFlow中，通常使用tf.keras模块来定义模型。可以使用Sequential API或Functional API。])PyTorch中，定义模型时需要继承nn.Module类并实现forward方法return x。

2024-07-02 21:16:26 1192 3

原创【论文阅读】伸缩密度比估计：Telescoping Density-Ratio Estimation

我们推测，这种泛化是通过参数共享来促进的，这使得每个比率估计器都可以间接地受到来自所有路标分布的样本的影响。对不同的样本量重复相同的实验，可以凭经验测量该方法的样本效率.对于绘制的情况，我们看到样本量的指数增加只会导致估计值线性下降错误。单一比率估计在MI值大于20 nats时变得非常不准确，相比之下，TRE能够准确估计高达80 nats的MI值，即使对于320维的变量也是如此。，因此学习 EBM 的问题变成了估计密度比的问题，这可以通过 TRE 来解决。每种噪声分布可以表示为标准正态分布的可逆变换。

2024-07-02 15:39:44 947

原创【论文精读】分类扩散模型：重振密度比估计（Revitalizing Density Ratio Estimation）

文章目录一、文章概览（一）问题的提出（二）文章工作二、理论背景（一）密度比估计DRE（二）去噪扩散模型三、方法（一）推导分类和去噪之间的关系（二）组合训练方法（三）一步精确的似然计算四、实验（一）使用两种损失对于实现最佳分类器的重要性（二）去噪结果、图像质量和负对数似然论文：Classification Diffusion Models: Revitalizing Density Ratio Estimation一、文章概览（一）问题的提出学习数据分布的重要方法：密度比估计（DRE）密度比估计

2024-06-23 17:27:02 1769

原创 huggingface官网下载并处理ImageNet2012数据集

ImageNet数据集可以直接从ImageNet官方网站获取数据，但通常需要注册并遵守使用协议。另外，由于数据集较大，往往下载需要花费大量的时间空间，而通过huggingface下载数据集的方法不仅速度相对较快，而且能够直接从服务器远程进行下载。。

2024-06-20 14:31:33 1921 1

原创【论文精读】树环水印Tree-Ring Watermarks：隐形且稳健的扩散图像的指纹

傅里叶变换是一种数学变换，用于将时间或空间域的信号转换到频率域。其基本思想是将复杂的信号分解成一系列简单的正弦波（或余弦波）的叠加，每个正弦波具有特定的频率、振幅和相位。通过这种分解，可以更容易地分析和处理信号，尤其是在频率域内。我们不是将密钥直接印到高斯数组中，这可能会在结果图像中产生明显的图案，而是将密钥印到起始噪声向量的傅里叶变换中。然后使用标准扩散管道将该初始噪声矢量转换为图像，无需任何修改。树环水印通过在傅里叶变换的频域中精心选择秘钥k∗k^*k∗，结合二进制掩码MMM。

2024-06-19 10:23:37 2218 1

原创【论文精读】ViM: Out-Of-Distribution with Virtual-logit Matching 使用虚拟分对数匹配的分布外检测

一个直观的例子如下图：一个对于螃蟹和猫的分类网络，可能会把从未见过的拍手（在训练集数据分布之外的测试样本，out-of-distribution sample）错分为螃蟹，把从未见过的狗错分为猫。虽然类别级别的注释成本较低，但生成的数据集可能包含大量不符合预期的噪音。大多数现有的分布外 (OOD) 检测算法依赖于单一输入源：特征、logit 或 softmax 概率，这导致其无法应对分布多种多样的OOD样本：有些 OOD 样本在特征空间中很容易识别，但在 Logit 空间中很难区分，反之亦然。

2024-06-18 11:48:01 1949 2

原创应用广义线性模型三|多响应广义线性模型

如果响应变量是多水平的分类变量，建模时不能将这类响应变量处理成取多个不同值的单变量，而应将其按照哑变量编码，结果形成二维响应变量。

2024-06-18 11:42:39 793

原创应用广义线性模型二|二响应广义线性模型

系列文章目录文章目录系列文章目录一、二响应模型的不同表达方式和响应函数二、二响应模型的性质（一）二响应变量的条件数学期望与方差（二）二响应模型参数的极大似然估计（三）二响应模型的优势三、二响应模型参数的假设检验（一）对数似然比检验方法（二）Wald统计量（三）得分统计量（四）模型参数分量是否为0的检验（五）四种检验统计量的特点与应用四、二响应模型的拟合优度统计量（一）样本观测数据的表示方法（二）皮尔逊统计量（三）偏差统计量五、全模型与子模型六、响应变量的预报（一）阈值（二）ROC曲线2响应模型中响应变

2024-06-08 22:02:10 1290

原创应用广义线性模型一|线性模型

对于响应变量YYY和解释变量X1XqX_1,...X_qX1...Xq，如果存在qqq元函数Z1ZpZ1...Zp，以及实数β1βpβ1...βpYZ1Xβ1ZpXβpϵYZ1Xβ1...ZpXβpϵ并且ϵ\epsilonϵ为随机变量，满足条件Eϵ∣X≡0Eϵ∣X≡0，则称其为线性回归模型或线性模型。YZ1Xβ1。

2024-06-08 21:10:00 1152

原创统计计算六|自助法及置换检验（Bootstrap and Permutation Test）

置换检验通过对比样本置换后的检验统计量与置换前的检验统计量来决定是否拒绝零假设。p 值为假设检验中假设零假设为真时观测到的至少与实际观测样本相同的样本的概率。很小的 p 值说明在零假设下观测到的概率很小。的估计，经过逐个删除并分别计算估计之后，便可以得到一系列估计值，基于这些估计值进而估计。，每次删除其中一个 (或者几个) 样本点，基于剩下的样本采用相同的估计量公式得到。Jackknife 估计的基本思想是，对于给定样本。的分布，进而得到估计量的均值和方差。分布Bootstrap估计的标准差。

2024-05-30 19:56:13 1860

原创统计计算五|MCMC（ Markov Chain Monte Carlo）

系列文章目录统计计算一|非线性方程的求解统计计算二|EM算法（Expectation-Maximization Algorithm，期望最大化算法）统计计算三|Cases for EM统计计算四|蒙特卡罗方法（Monte Carlo Method）文章目录系列文章目录一、基本概念（一）马尔科夫链1、定义2、性质3、常返4、平稳分布（二）MCMC原理1、核心思想2、连续状态3、MCMC估计期望的步骤二、满条件分布1、定义2、考虑MCMC中的应用3、伽玛分布三、Metropolis–Hastings

2024-05-29 17:43:05 1675

原创统计计算四|蒙特卡罗方法（Monte Carlo Method）

剩下的飞镖将在曲线下方的区域内均匀分布，并且这些飞镖的 x 坐标将按照随机变量的密度分布。拒绝抽样的一般形式假设板子的形状不一定是矩形，而是根据某个提议分布的密度来确定（该分布不一定归一化为 1）。通常情况下将其视为某个已知的分布的倍数。但是接受拒绝采样非常依赖于提议分布的选择，如果提议分布选择的不好，可能采样时间很长却获得很少满足分布的粒子。蒙特卡洛方法：为了解决某确定性问题，把它变成一个概率模型的求解问题，然后产生符合模型的大量随机数，对产生的随机数进行分析从而求解问题的方法，又称为随机模拟方法。

2024-05-27 22:06:54 1789

原创统计计算三|Cases for EM

2、多项式分布的其中两个类别，他们加起来等于一个常数的话，那么他们两个在这个常数下的条件概率分布成比例于他们在原有的多项式分布中各自的概率，然后他们在这个二项式分布真实的概率为它们在联合概率中的这个概率除以它们的求和。, EM算法本质上相当于把基于完整数据得到的极大似然估计量中没有观测到的数据，采用观测到的数据和上次迭代估计。的估计，只需分别统计 A, B 硬币投的结果出现正面的次数，然后除以分别投的总次数。，且未观测到的隐含数据和观测到的数据独立，则。假定已注册的人的B站等级服从参数为。

2024-05-27 12:58:41 1283

原创统计计算二|EM算法（Expectation-Maximization Algorithm，期望最大化算法）

系列文章目录统计计算一|非线性方程的求解文章目录系列文章目录一、基本概念（一）极大似然估计和EM算法（二）EM算法的基本思想（三）定义1、缺失数据, 边际化和符号2、Q函数3、混合高斯模型（Gaussian Mixture Model，简称GMM）4、一般混合模型三、收敛性（一）琴生不等式（Jensen’s inequality）（二） EM 算法的收敛性质（三）MM 算法 (Minorize-Maximization)四、方差估计（一）Louis’s Method1、提出原因2、核心思想3、计算步骤（

2024-05-24 12:48:39 730

原创统计计算一|非线性方程的求解

回顾最大似然估计，频率派和贝叶斯学派，讲解非线性方程的优化方法，包括二分法，牛顿法，割线法，以及他们收敛的理论证明。此外，讲述最新适用于深度学习的优化。

2024-05-22 18:30:27 763

原创凸优化理论学习八|几何问题

另外，需要注意的是，两组不等式可能描述相同的集合，但其解析中心可能是不同的，这取决于不等式约束的具体形式和约束集合的几何性质。它的作用是通过惩罚违反不等式约束来寻找在约束集内部的点，其中对于任何违反不等式约束的点，其目标函数值会趋于无穷大，因此最小化该目标函数将导致寻找在不等式约束下尽可能远离违规区域的点。在设施选址和布置问题中，我们通常需要在平面或三维空间中放置若干个点，并且这些点之间的某些位置是已知的，另一些位置是变量。内接椭球最大体积问题是一个经典的几何优化问题，通常被称为"最大体积内接椭球问题"。

2024-05-19 19:55:52 2303

原创凸优化理论学习七|统计估计

极大极小（Max-Min）检测器是一种常见的检测器设计方法，其目标是在所有可能情况下最大化最差情况的性能。D-最优设计是实验设计中的一种方法，通过选择设计点来最小化估计参数的协方差矩阵的行列式，从而最小化估计的不确定性。标量化多目标检测器设计问题的核心思想是将多个目标函数组合成一个单一的标量目标函数，从而将多目标优化问题转化为单目标优化问题。行列式的几何解释是对应置信椭球体的体积，因此最小化协方差矩阵的行列式的对数相当于最小化估计的不确定性，使得置信椭球体的体积最小。在参数分布估计中，我们选择一个参数。

2024-05-19 13:38:12 1062

原创凸优化理论学习六|近似和拟合

在估计或回归领域中，当测量的结果中某个分量存在较大的噪声误差时，按照上面的罚函数，结果残差向量中会产生含有较大分量的残差项。对于这种情况，我们应该首先确认哪些测量值是野值，然后在估计过程中移除，或者在估计时不要对这些项进行太多的优化。最常用的就是使用范数，范数是一个函数，自变量是一个向量，因变量是这个向量的距离值。评价每个分量的费用或惩罚，总体惩罚就是每个残差的罚函数之和。的不同选择会导致不同的残差，因此有不同的总体惩罚，在罚函数问题中，极小化总体惩罚来解决问题。的问题，而最小范数问题解决的是在满足。

2024-05-18 21:02:35 1829

原创凸优化理论学习五|对偶性

对偶问题（Dual Problem）在优化理论中是与原始问题相关联的一个问题。对偶问题的目标函数和约束条件是通过拉格朗日函数构造的，其形式可能有所不同，具体取决于原始问题的形式。目标函数：最大化gλvgλvλ≥0λ≥0凸性：无论原始问题是否为凸，对偶问题始终为凸优化问题，因此对偶问题比原始问题更容易求解弱对偶性：对于任何原始可行解xxx和任何对偶可行解λvλvfx≤gλvfx≤gλv。

2024-05-18 13:07:18 1359

原创凸优化理论学习四|凸优化问题（二）

这种问题通常在实践中很难求解，因为它是一个组合优化问题，通常需要穷尽搜索所有可能的组合来找到最优解。但是找到一个同时优化所有目标的解是具有挑战性的，而且可能并非总是可能的。在凸松弛中，通过将非凸问题转化为等价的凸优化问题来简化求解过程。拟凸优化问题是一类特殊的优化问题，它的目标函数是拟凸函数，拟凸问题可能有非（全局）最优的局部最优点。对于标量问题是最优的，那么它对于多准则问题是帕累托最优的。在凸形式中，将几何规划（GP）的问题转换为对数空间是一种常见的方法。得到的等价问题为：（这里的映射必须是单射）

2024-05-17 15:06:23 1230

原创凸优化理论学习三|凸优化问题（一）

二次规划（Quadratic Programming，简称QP）是一种优化问题，其目标是最小化或最大化一个二次型目标函数，其变量受到一组线性等式和不等式约束的限制。线性规划（LP）是一种特殊形式的凸优化问题，其目标函数和约束函数都是仿射的，可行集是多面体（即由线性不等式和等式构成的凸多面体）。半定规划（Semidefinite Programming，SDP）是一类重要的凸优化问题，它涉及到优化一个线性函数，其变量是对称半正定矩阵。凸优化问题的可行集和最优集是凸的；是对称正定矩阵，目标和约束是凸二次的；

2024-05-14 21:55:21 1478

原创凸优化理论学习二|凸函数及其相关概念

设SSS为nnn维欧氏空间RnR^nRn中的非空凸集，fff是定义在SSS上的实函数，如果对任意的xy∈Sx,y\in Sxy∈S及0≤θ≤10≤θ≤1fθx1−θy≤θfx1−θfyfθx1−θy≤θfx1−θfy则称fff为SSS上的凸函数。（这里的凸函数与高数里面定义的凸函数则恰恰相反。如果 -f 是凸的，则 f 是凹的当不需要满足等号条件时，fff为严格凸函数。

2024-05-11 20:25:49 1540

原创凸优化理论学习一|最优化及凸集的基本概念

线性分数函数是仿射映射函数和透视变换的复合函数，依然还是保凸运算，凸集在线性分数函数下的像和逆像都是凸的。支撑超平面不完全逆定理：如果一个集合是闭的，具有非空内部并且其边界上每个点均存在支撑超平面，那么它是凸的。仿射映射：凸集的仿射映射也是凸的。（函数形式为f=Ax+b，则称函数是仿射的，即线性函数加常数的形式。是有限多个线性不等式和等式的解集，也是有限数量的半空间和超平面的交集。支撑超平面：如果C是凸的，那么在C的每个边界点都存在一个支持超平面。交运算：（任意数量的）凸集的交集是凸的。

2024-05-10 14:27:27 2230

原创【论文精读】The Stable Signature: Rooting Watermarks in Latent Diffusion Models 稳定的签名：潜在扩散模型中的根水印

生成图像建模可实现广泛的应用，但引起了有关负责任部署的道德担忧。由于无法识别图像是由人工智能生成的，因此很难将它们从某些平台上删除并确保它们符合道德标准。它为深度造假、冒充或盗用版权等新风险打开了大门。一种结合图像水印和潜在扩散模型的主动策略，使得所有生成的图像隐藏不可见的水印，从而使得将来能够对其进行检测或者识别。以二进制签名为条件，快速微调图像生成器的潜在解码器。预先训练的水印提取器从任何生成的图像中恢复隐藏的签名，然后进行统计测试以确定它是否来自生成模型。

2024-05-04 20:08:32 2588 2

原创【每日算法】理论：大模型相关刷题：队列的应用

通过给定一个初始文本序列或部分文本序列，LLM可以利用学到的统计模型来计算下一个最有可能出现的词或字符，然后将其作为生成序列的一部分。zero-shot是在训练集类别和测试集类别之间没有交集的情况下，通过借助类别的描述来建立训练集和测试集之间的联系，从而实现只利用训练集数据训练模型之后，模型就能对测试集的对象进行分类。核心思想：先自行创建一个单调队列，在将大小为k的滑动窗口中元素放进队列中时，如果元素比当前队列中元素值都大，那么就弹出前边的元素，确保当前队列的最外端的元素始终为窗口的最大值。

2024-05-02 11:19:08 853

原创【每日算法】理论：多模态系列刷题：栈的应用

ViLT提出了一个极其简单的做多模态学习的框架结构，它把模态的特征抽取做到了极小化，把主要的计算量都放到了后面的模态融合上，大大地提高了模型的推理速度，而且让整个方法的建模变得很简单。BLIP模型是多模态领域的经典模型，它的核心思想是通过多路损失函数，以及图像分块理解策略等算法，构建高质量的图像理解模型，实现了视觉语言理解和生成任务的统一。核心思想：与上题类似，栈的目的就是存放遍历过的元素，当遍历当前的这个元素的时候，去栈里看一下是不是遍历过相同数值的相邻元素，然后再去做对应的消除操作。

2024-04-29 12:00:21 1169

原创【论文精读】多模态系列：ALBEF、VLMo、BLIP、CoCa、BeiTv3

这个多路Transformer其实也是微软之前的工作VLMo，多路Transformer的核心是模型的MHSA模块是共享的，而设置不同的FFN来分别处理图像（V-FFN），文本（L-FFN）和多模态数据（VL-FFN）。给定任何一张图片，按照vision transformer的方法，打成patch，然后通过patch embedding layer，送进vision transformer，图像这边对应的编码器就是一个标准的12层的vision transformer的base模型。

2024-04-29 11:00:04 1888

原创 ConsistencyDet: Robust Object Detector with Denoising Paradigm of Consistency Model

目标检测是计算机视觉领域的一项基石任务，其任务是预测每个图像中对象的位置数据和分类身份。它是广泛应用的基础，包括实例分割、姿势估计、动作识别、对象跟踪和视觉关系检测。传统的图像处理技术原理：通过边缘检测、特征提取等方法来检测物体缺点：不适合处理复杂场景和光照变化初始对象检测方法原理：以采用滑动窗口和区域提议来描绘对象候选区域的策略为中心，利用代理技术进行回归和分类；缺点：受到候选选择过程的手动设计的阻碍，在复杂视觉环境中的适应性较低。引入锚盒原理：模型能够通过。

2024-04-26 19:46:16 869

原创 pix2pix：使用条件对抗网络进行图像到图像的转换

pix2pix模型本质上是cGAN的一种特殊实现。一种Image-to-Image的实现，是一种基于GAN的图像到图像翻译架构，生成部分G用U-Net代替Encoder-Decoder。文章的主要目的是开发一个通用框架来解决图像-图像转换（从像素预测像素）的所有问题：非结构化：图像到图像的转换问题通常被表述为每像素分类或回归。这些公式将输出空间视为“非结构化”，因为每个输出像素被认为有条件地独立于给定输入图像的所有其他像素。结构化：结构化损失考虑了输出的联合配置，而不仅仅是单个像素的值。这意味着损失函

2024-04-26 10:07:20 2247

原创【每日算法】理论：深度学习基础刷题：栈与队列的转换

Textual Inversion模型的作用在于将独特的对象注入新场景，将它们转换成不同的风格，转移姿势，减少偏见，甚至想象新产品。Textual Inversion模型影响的是模型的embedding部分，以SD为例，就是将SD的子模块text_encoder中的token embedding部分通过训练增加了伪标签的嵌入向量，其他模块均保持不变，所以训练速度超快，效果也很明显。要实现队列向栈的转换，也可以定义两个队列，只不过没有输入和输出的关系，而是将其中一个队列作为备份。

2024-04-24 18:44:38 1513

原创【论文精读】DiffAttack：难以察觉和可转移的对抗性攻击的扩散模型

xt。

2024-04-24 09:35:15 3271

原创 Textual Inversion：使用文本反转个性化文本到图像的生成

其中包含“S* 的照片”、“S* 的演绎”等形式的提示。我们可以从上图中生成的图像看到，利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的，因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。因此，文章通过在预训练的文本到图像模型的文本嵌入空间中查找新词来克服这些挑战：仅使用用户提供的概念（例如对象或风格）的 3-5 个图像，我们学习通过冻结文本到图像模型的嵌入空间中的新“单词”来表示它。

2024-04-23 18:41:33 2736

原创 T2I-Adapter：学习适配器为文本到图像扩散模型挖掘更多可控能力

注意，Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。在第一阶段，SD 训练了一个自动编码器，它可以将图像 X0 转换为潜在空间，然后重建它们。扩散模型中的时间嵌入是采样的重要条件。T2I-Adapter 具有良好的泛化性，可以支持各种结构控制，包括草图、深度图、语义分割图和关键姿势。因此，为了加强adapter的训练，采用非均匀采样来增加采样早期t下降的概率。作为干净的潜在特征，被输入到自动编码器的解码器中以执行图像生成。

2024-04-23 10:13:12 5107

AIGC论文-SAM-Segment Anything

AIGC论文-DALLE-Zero-Shot Text-to-Image Generation

空空如也