自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(161)
  • 收藏
  • 关注

原创 统计计算一|非线性方程的求解

回顾最大似然估计,频率派和贝叶斯学派,讲解非线性方程的优化方法,包括二分法,牛顿法,割线法,以及他们收敛的理论证明。此外,讲述最新适用于深度学习的优化。

2024-05-22 18:30:27 219

原创 凸优化理论学习八|几何问题

另外,需要注意的是,两组不等式可能描述相同的集合,但其解析中心可能是不同的,这取决于不等式约束的具体形式和约束集合的几何性质。它的作用是通过惩罚违反不等式约束来寻找在约束集内部的点,其中对于任何违反不等式约束的点,其目标函数值会趋于无穷大,因此最小化该目标函数将导致寻找在不等式约束下尽可能远离违规区域的点。在设施选址和布置问题中,我们通常需要在平面或三维空间中放置若干个点,并且这些点之间的某些位置是已知的,另一些位置是变量。内接椭球最大体积问题是一个经典的几何优化问题,通常被称为"最大体积内接椭球问题"。

2024-05-19 19:55:52 958

原创 凸优化理论学习七|统计估计

极大极小(Max-Min)检测器是一种常见的检测器设计方法,其目标是在所有可能情况下最大化最差情况的性能。D-最优设计是实验设计中的一种方法,通过选择设计点来最小化估计参数的协方差矩阵的行列式,从而最小化估计的不确定性。标量化多目标检测器设计问题的核心思想是将多个目标函数组合成一个单一的标量目标函数,从而将多目标优化问题转化为单目标优化问题。行列式的几何解释是对应置信椭球体的体积,因此最小化协方差矩阵的行列式的对数相当于最小化估计的不确定性,使得置信椭球体的体积最小。在参数分布估计中,我们选择一个参数。

2024-05-19 13:38:12 779

原创 凸优化理论学习六|近似和拟合

在估计或回归领域中,当测量的结果中某个分量存在较大的噪声误差时,按照上面的罚函数,结果残差向量中会产生含有较大分量的残差项。对于这种情况,我们应该首先确认哪些测量值是野值,然后在估计过程中移除,或者在估计时不要对这些项进行太多的优化。最常用的就是使用范数,范数是一个函数,自变量是一个向量,因变量是这个向量的距离值。评价每个分量的费用或惩罚,总体惩罚就是每个残差的罚函数之和。的不同选择会导致不同的残差,因此有不同的总体惩罚,在罚函数问题中,极小化总体惩罚来解决问题。的问题,而最小范数问题解决的是在满足。

2024-05-18 21:02:35 1224

原创 凸优化理论学习五|对偶性

对偶问题(Dual Problem)在优化理论中是与原始问题相关联的一个问题。对偶问题的目标函数和约束条件是通过拉格朗日函数构造的,其形式可能有所不同,具体取决于原始问题的形式。目标函数:最大化gλvgλvλ≥0λ≥0凸性:无论原始问题是否为凸,对偶问题始终为凸优化问题,因此对偶问题比原始问题更容易求解弱对偶性:对于任何原始可行解xxx和任何对偶可行解λvλvfx≤gλvfx≤gλv。

2024-05-18 13:07:18 859

原创 凸优化理论学习四|凸优化问题(二)

这种问题通常在实践中很难求解,因为它是一个组合优化问题,通常需要穷尽搜索所有可能的组合来找到最优解。但是找到一个同时优化所有目标的解是具有挑战性的,而且可能并非总是可能的。在凸松弛中,通过将非凸问题转化为等价的凸优化问题来简化求解过程。拟凸优化问题是一类特殊的优化问题,它的目标函数是拟凸函数,拟凸问题可能有非(全局)最优的局部最优点。对于标量问题是最优的,那么它对于多准则问题是帕累托最优的。在凸形式中,将几何规划(GP)的问题转换为对数空间是一种常见的方法。得到的等价问题为:(这里的映射必须是单射)

2024-05-17 15:06:23 769

原创 凸优化理论学习三|凸优化问题(一)

二次规划(Quadratic Programming,简称QP)是一种优化问题,其目标是最小化或最大化一个二次型目标函数,其变量受到一组线性等式和不等式约束的限制。线性规划(LP)是一种特殊形式的凸优化问题,其目标函数和约束函数都是仿射的,可行集是多面体(即由线性不等式和等式构成的凸多面体)。半定规划(Semidefinite Programming,SDP)是一类重要的凸优化问题,它涉及到优化一个线性函数,其变量是对称半正定矩阵。凸优化问题的可行集和最优集是凸的;是对称正定矩阵,目标和约束是凸二次的;

2024-05-14 21:55:21 1061

原创 凸优化理论学习二|凸函数及其相关概念

设SSS为nnn维欧氏空间RnR^nRn中的非空凸集,fff是定义在SSS上的实函数,如果对任意的xy∈Sx,y\in Sxy∈S及0≤θ≤10≤θ≤1fθx1−θy≤θfx1−θfyfθx1−θy≤θfx1−θfy则称fff为SSS上的凸函数。(这里的凸函数与高数里面定义的凸函数则恰恰相反。如果 -f 是凸的,则 f 是凹的当不需要满足等号条件时,fff为严格凸函数。

2024-05-11 20:25:49 1028

原创 凸优化理论学习一|最优化及凸集的基本概念

线性分数函数是仿射映射函数和透视变换的复合函数,依然还是保凸运算,凸集在线性分数函数下的像和逆像都是凸的。支撑超平面不完全逆定理:如果一个集合是闭的,具有非空内部并且其边界上每个点均存在支撑超平面,那么它是凸的。仿射映射:凸集的仿射映射也是凸的。(函数形式为f=Ax+b,则称函数是仿射的,即线性函数加常数的形式。是有限多个线性不等式和等式的解集,也是有限数量的半空间和超平面的交集。支撑超平面:如果C是凸的,那么在C的每个边界点都存在一个支持超平面。交运算:(任意数量的)凸集的交集是凸的。

2024-05-10 14:27:27 621

原创 【论文精读】The Stable Signature: Rooting Watermarks in Latent Diffusion Models 稳定的签名:潜在扩散模型中的根水印

生成图像建模可实现广泛的应用,但引起了有关负责任部署的道德担忧。由于无法识别图像是由人工智能生成的,因此很难将它们从某些平台上删除并确保它们符合道德标准。它为深度造假、冒充或盗用版权等新风险打开了大门。一种结合图像水印和潜在扩散模型的主动策略,使得所有生成的图像隐藏不可见的水印,从而使得将来能够对其进行检测或者识别。以二进制签名为条件,快速微调图像生成器的潜在解码器。预先训练的水印提取器从任何生成的图像中恢复隐藏的签名,然后进行统计测试以确定它是否来自生成模型。

2024-05-04 20:08:32 666

原创 【每日算法】理论:大模型相关 刷题:队列的应用

通过给定一个初始文本序列或部分文本序列,LLM可以利用学到的统计模型来计算下一个最有可能出现的词或字符,然后将其作为生成序列的一部分。zero-shot是在训练集类别和测试集类别之间没有交集的情况下,通过借助类别的描述来建立训练集和测试集之间的联系,从而实现只利用训练集数据训练模型之后,模型就能对测试集的对象进行分类。核心思想:先自行创建一个单调队列,在将大小为k的滑动窗口中元素放进队列中时,如果元素比当前队列中元素值都大,那么就弹出前边的元素,确保当前队列的最外端的元素始终为窗口的最大值。

2024-05-02 11:19:08 611

原创 【每日算法】理论:多模态系列 刷题:栈的应用

ViLT提出了一个极其简单的做多模态学习的框架结构,它把模态的特征抽取做到了极小化,把主要的计算量都放到了后面的模态融合上,大大地提高了模型的推理速度,而且让整个方法的建模变得很简单。BLIP模型是多模态领域的经典模型,它的核心思想是通过多路损失函数,以及图像分块理解策略等算法,构建高质量的图像理解模型,实现了视觉语言理解和生成任务的统一。核心思想:与上题类似,栈的目的就是存放遍历过的元素,当遍历当前的这个元素的时候,去栈里看一下是不是遍历过相同数值的相邻元素,然后再去做对应的消除操作。

2024-04-29 12:00:21 1004

原创 【论文精读】多模态系列:ALBEF、VLMo、BLIP、CoCa、BeiTv3

这个多路Transformer其实也是微软之前的工作VLMo,多路Transformer的核心是模型的MHSA模块是共享的,而设置不同的FFN来分别处理图像(V-FFN),文本(L-FFN)和多模态数据(VL-FFN)。给定任何一张图片,按照vision transformer的方法,打成patch,然后通过patch embedding layer,送进vision transformer,图像这边对应的编码器就是一个标准的12层的vision transformer的base模型。

2024-04-29 11:00:04 982

原创 ConsistencyDet: Robust Object Detector with Denoising Paradigm of Consistency Model

目标检测是计算机视觉领域的一项基石任务,其任务是预测每个图像中对象的位置数据和分类身份。它是广泛应用的基础,包括实例分割、姿势估计、动作识别、对象跟踪和视觉关系检测。传统的图像处理技术原理:通过边缘检测、特征提取等方法来检测物体缺点:不适合处理复杂场景和光照变化初始对象检测方法原理:以采用滑动窗口和区域提议来描绘对象候选区域的策略为中心,利用代理技术进行回归和分类;缺点:受到候选选择过程的手动设计的阻碍,在复杂视觉环境中的适应性较低。引入锚盒原理:模型能够通过。

2024-04-26 19:46:16 626

原创 pix2pix:使用条件对抗网络进行图像到图像的转换

pix2pix模型本质上是cGAN的一种特殊实现。一种Image-to-Image的实现,是一种基于GAN的图像到图像翻译架构,生成部分G用U-Net代替Encoder-Decoder。文章的主要目的是开发一个通用框架来解决图像-图像转换(从像素预测像素)的所有问题:非结构化: 图像到图像的转换问题通常被表述为每像素分类或回归。这些公式将输出空间视为“非结构化”,因为每个输出像素被认为有条件地独立于给定输入图像的所有其他像素。结构化: 结构化损失考虑了输出的联合配置,而不仅仅是单个像素的值。这意味着损失函

2024-04-26 10:07:20 1394

原创 【每日算法】理论:深度学习基础 刷题:栈与队列的转换

Textual Inversion模型的作用在于将独特的对象注入新场景,将它们转换成不同的风格,转移姿势,减少偏见,甚至想象新产品。Textual Inversion模型影响的是模型的embedding部分,以SD为例,就是将SD的子模块text_encoder中的token embedding部分通过训练增加了伪标签的嵌入向量,其他模块均保持不变,所以训练速度超快,效果也很明显。要实现队列向栈的转换,也可以定义两个队列,只不过没有输入和输出的关系,而是将其中一个队列作为备份。

2024-04-24 18:44:38 1294

原创 【论文精读】DiffAttack:难以察觉和可转移的对抗性攻击的扩散模型

xt​。

2024-04-24 09:35:15 717

原创 Textual Inversion:使用文本反转个性化文本到图像的生成

其中包含“S* 的照片”、“S* 的演绎”等形式的提示。我们可以从上图 中生成的图像看到,利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的,因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。因此,文章通过在预训练的文本到图像模型的文本嵌入空间中查找新词来克服这些挑战:仅使用用户提供的概念(例如对象或风格)的 3-5 个图像,我们学习通过冻结文本到图像模型的嵌入空间中的新“单词”来表示它。

2024-04-23 18:41:33 809

原创 T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力

注意,Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。在第一阶段,SD 训练了一个自动编码器,它可以将图像 X0 转换为潜在空间,然后重建它们。扩散模型中的时间嵌入是采样的重要条件。T2I-Adapter 具有良好的泛化性,可以支持各种结构控制,包括草图、深度图、语义分割图和关键姿势。因此,为了加强adapter的训练,采用非均匀采样来增加采样早期t下降的概率。作为干净的潜在特征,被输入到自动编码器的解码器中以执行图像生成。

2024-04-23 10:13:12 1165

原创 【每日算法】理论:深度学习基础 刷题:KMP算法思想

梯度消失是指在深度学习训练的过程中,梯度随着 BP 算法中的链式求导逐层传递逐层减小,最后趋近于0,导致对某些层的训练失效;梯度爆炸与梯度消失相反,梯度随着 BP 算法中的链式求导逐层传递逐层增大,最后趋于无穷,导致某些层无法收敛;

2024-04-22 19:00:46 1109

原创 【论文精读】ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision

Vision-and-Language Transformer Without Convolution or Region Supervision:没有卷积或区域监督的视觉和语言转换器其实就是用transformer做多模态任务,但是没有用卷积特征和区域特征作为监督信号卷积特征指的是一个预训练好的分类模型(backbone)抽出来的特征图区域特征指的是用了一个图像的backbone之后做了一个目标检测出来的检测框代表的区域特征。

2024-04-21 19:34:57 706

原创 PyTorch|保存及加载模型、nn.Sequential、ModuleList和ModuleDict

在保存一般检查点时,不仅仅是保存模型的state_dict,还包括保存优化器的state_dict、停止使用的时间,最近记录的训练损失,外部的torch.nn.Embedding层等等。如果输入的是一个字典,init函数会采用遍历字典的方式,如果是一个一个的模块,init函数也会针对性的采取其他遍历方法。nn.Sequential是有序的,当实例化nn.Sequential时,传入的模块顺序就是神经网络前向传播的顺序。对于一个模型的输入,nn.Sequential会依次的过其中的子模块。

2024-04-19 10:33:16 1081 1

原创 【每日算法】理论:常见网络架构 刷题:力扣字符串回顾

循环神经网络模型(RNN)是一种节点定向连接成环的人工神经网络,是一种反馈神经网络,RNN利用内部的记忆来处理任意时序的输入序列,并且在其处理单元之间既有内部的反馈连接又有前馈连接。而在普通的全连接网络或CNN中,每层神经元的信号只能向上一层传播,样本的处理在各个时刻独立,因此无法对时间序列上的变化进行建模。具体来说,RNN中的神经元的输出可以在下一个时间段直接作用到自身,即第i层神经元在m时刻的输入,除了(i-1)层神经元在该时刻的输出外,还包括其自身在(m-1)时刻的输出。

2024-04-17 08:32:14 631

原创 【论文精读】MedIAnomaly:医学图像异常检测的比较研究

检测出偏离了预期正常模式的异常样本。假设大量具有相似模式的正常样本是容易获得的,而具有多样化和位置模式的异常样本很难全面收集。因此AD方法一般只需要正常数据即可进行训练,不需要异常样本,因此在医学领域的罕见病识别和健康筛查中发挥着重要作用。相关研究众多,但是缺乏公正、全面的评价,导致一些结论模糊不清,阻碍了该领域的发展:现有工作中使用不同的数据集或分区会妨碍再现性和可比性,从而破坏研究结果的可靠性。

2024-04-15 12:52:33 956

原创 pytorch|autograd使用、训练模型

epoch的次数——在数据上迭代的次数;batch Size——在参数更新之前通过网络传播的数据样本的数量;learning Rate——在每个batch/epoch更新模型参数的次数。epochs = 5优化器一般至少有两个参数:需要更新的模型的参数、学习率需要先调用optimizer.zero_grad(),对模型参数的梯度进行重置在pytorch中,参数的梯度会默认进行累计,了防止重复计数,每次迭代时需要显式地将它们归零。调用loss.backward()反向传播预测损失。

2024-04-15 08:53:29 983

原创 【每日算法】阶段总结

在写涉及到单调栈用法的题目时,一般情况下首先应该准备单调栈并且一般情况下初始化为0,然后会对原始数组进行遍历,遍历过程中根据题目的要求完成对于单调栈元素的增加或者删除。链表是一种通过指针串联在一起的线性结构,每一个节点由两部分组成,一个是数据域一个是指针域(存放指向下一个节点的指针),最后一个节点的指针域指向null(空指针的意思)。链表的代码题关键是处理好指针以及各种操作的顺序。涉及到的常用技巧有双指针法、虚拟头节点等。数组是非常基础的数据结构,数组可以方便的通过下标索引的方式获取到下标下对应的数据。

2024-04-13 08:30:31 589

原创 【每日算法】理论:深度学习基础 刷题:力扣哈希表回顾

KL散度和JS散度在度量的时候有一个问题:如果p、q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。JS散度度量了两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题。问题类似,只不过需要多加一层循环。这两道题的关键难点在于不可以包含重复,因此在使用哈希法处理的时候有很多细节需要注意。问题可以先用两层for循环确定 a 和b 的数值,然后利用哈希法来确定 0-(a+b) 是否在 数组里出现过,而。

2024-04-12 09:39:21 945

原创 【论文精读】集合级指导攻击:提高视觉语言预训练模型的对抗性可迁移性

标题:集合级指导攻击:提高视觉语言预训练模型的对抗性可迁移性。

2024-04-11 09:26:53 683 2

原创 PyTorch|搭建分类网络实例、nn.Module源码学习

定义一组参数,该组参数在模型训练时不会更新(即调用 optimizer.step() 后该组参数不会变化,只可人为地改变它们的值),但是保存模型时,该组参数又作为模型参数不可或缺的一部分被保存。将一个不可训练的类型Tensor转换成可以训练的类型parameter,并将这个parameter绑定到这个module里面,相当于变成了模型的一部分,成为了模型中可以根据训练进行变化的参数。_save_to_state_dict函数:把当前module的所有参数及buffers放入一个字典中。

2024-04-10 08:08:30 773

原创 【每日算法】理论:AIGC算法相关 刷题:力扣哈希表回顾

大多数目标检测算法(稠密预测)在得到最终的预测结果时,特征图的每个位置都会输出多个检测结果,整个特征图上会出很多个重叠的框。NMS算法在每轮选取置信度最大的 Bounding Box ,接着关注所有剩下的 BBox 中与选取的 BBox 有着高重叠(IoU)的,对于IOU>阈值的相邻的检测框,NMS将其得分暴力置零,相当于直接舍弃。具体来说就是先遍历大A和大B数组,统计两个数组元素之和,和出现的次数,放到字典中,然后遍历大C和大D数组,统计0-(c+d) 在dict中出现的情况。

2024-04-09 08:43:55 1059

原创 【论文精读】CLIP 改进工作(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso、CLIP4clip、ActionCLIP)

LSeg模型使用了CLIP模型的预训练参数,但是其目标函数不是对比学习,也不是无监督学习的框架,并没有将文本作为监督学习的信号使用。模型在 7 个分割数据集上进行训练,这些数据集都是由有标注的分割图组成,所以模型是以有监督的方式进行训练的(损失函数是交叉熵损失而非无监督的对比学习目标函数)。推理时,可以指定任意个数、任意内容的类别 prompt 来进行 zero-shot 的语义分割。

2024-04-08 10:06:06 1154

原创 PyTorch|Dataset与DataLoader使用、构建自定义数据集

构建自定义的Dataset类,需要继承TensorFlow的官方dataset类自定义Dataset类必须实现三个函数:__init__,__len__和__getitem__pytorch中的dataset类是在pytorch的torch下的utils之下的data文件夹里有一个dataset.py。

2024-04-06 11:08:02 1797

原创 【论文精读】Detecting Out-of-Distribution Examples with Gram Matrices 使用Gram矩阵检测分布外实例

n维欧式空间中任意k个向量之间两两的内积所组成的矩阵,称为这k个向量的格拉姆矩阵(Gram matrix)。它的行列式则称为Gram(格朗姆)行列式。Gram矩阵是两两向量的内积组成,所以Gram矩阵可以反映出该组向量中各个向量之间的某种关系。考虑的深度卷积网络有LLL层,第lll层有nln_lnl​个通道,考虑∑1lLnl∗nl12∑1<=l<=L​2nl​∗nl​1​对特征图之间的特征共现。

2024-04-05 16:25:36 1430

原创 【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹

GPT的核心技术是把Transformer的解码器拿出来,在没有标号的大量的文本数据集上训练一个语言模型来获得一个预训练模型,然后在子任务上进行微调得到每一个任务所需要的分类器。BERT的思想是把Transformer的编码器拿出来,收集了一个更大的数据集用于做预训练。BERT提到了两个模型:BERT-Base和BERT-Large,BERT-Base的模型大小与GPT一致,结果显示Bert的性能要好于GPT。BERT-Large比BERT-Base更大,因此性能也更优。

2024-04-04 09:55:27 1646

原创 NMS 系列:soft,softer,weighted,iou-guided, Diou, Adaptive

非极大抑制的功能:筛选出一定区域内属于同一种类得分最大的框大多数目标检测算法(稠密预测)在得到最终的预测结果时,特征图的每个位置都会输出多个检测结果,整个特征图上会出很多个重叠的框。例如要检测一辆车,可能会有多个bbox都把这辆车给框了出来,因此需要从这些bbox中选出框得最好的,删除掉其它的。要定义框得好与不好,就得看bbox的预测置信度;为了删掉重叠的多余的框,就得利用IoU来检查重叠程度。nms的局限性:对于IOU>阈值的两个相邻的检测框,传统的NMS的做法是将其得分暴力置零相当于直接舍弃。

2024-04-03 08:03:07 1356

原创 神经网络发展历程:DNN、CNN、RNN

具体做法是,在局部连接中隐藏层的每一个神经元连接的是一个10 × 10的局部图像,因此有10 × 10个权值参数,将这10 × 10个权值参数共享给剩下的神经元,也就是说隐藏层中10^6个神经元的权值参数相同,那么此时不管隐藏层神经元的数目是多少,需要训练的参数就是这 10 × 10个权值参数(也就是卷积核(也称滤波器)的大小),如下图。而在RNN中,神经元的输出可以在下一个时间段直接作用到自身,即第i层神经元在m时刻的输入,除了(i-1)层神经元在该时刻的输出外,还包括其自身在(m-1)时刻的输出。

2024-04-02 08:35:05 1018 1

原创 Classifier Guidance 与 Classifier-Free Guidance

X1X2XmX1X2...Xm,每个向量的元素个数都是ppp。如果XiX^{(i)}XiXi∼NpμΣXi∼Np​μΣ对应的对数似然函数为:多元高斯分布协方差矩阵是对称矩阵,也是半正定矩阵,它的转置是它本身。

2024-04-01 08:40:15 970

原创 深度学习代码|MSE损失的代码实现

一般在反向传播时,都是先求loss,再使用loss.backward()求loss对每个参数 w_ij和b的偏导数(也可以理解为梯度)。但是只有标量才能执行backward()函数,因此在反向传播中reduction不能设为"none"。NumPy 是 Python 语言的一个第三方库,支持大量高维度数组与矩阵运算。此外,NumPy 也针对数组运算提供大量的数学函数。机器学习涉及到大量对数组的变换和运算,NumPy 就成了必不可少的工具之一。具体地,在深度学习中,可以使用该函数用来计算两个特征图的相似性。

2024-03-31 14:27:36 1355

原创 【论文精读】Score-Based Generative Modeling Through Stochastic Differential Equations 通过随机微分方程进行基于分数的生成建模

生成模型的目标是希望训练一个神经网络来表征概率分布,从而能够通过其实现采样生成。主流的生成式模型主要可以归纳为两种不同的模式:隐式(implicit)生成模型:对数据的采样过程进行建模,不从数据分布的概率密度角度出发,而是通过其它方法达到表示概率分布的目的,例如GAN。显式(explicit)生成模型:通过(近似)最大似然对概率密度进行建模,也被称为基于似然的模型。典型的基于似然的模型包括自回归模型、归一化流动模型、基于能量的模型(EBM) 和变分自编码器(VAE)。

2024-03-30 13:59:44 926

原创 【每日算法】理论: 扩散模型+深度学习基础 刷题:力扣哈希表回顾

去噪扩散隐式模型(DDIM)是一类更有效的迭代隐式概率模型,具有与DDPM相同的训练程序,但是它不再限制扩散过程必须是一个马尔卡夫链,这使得DDIM可以采用更小的采样步数来加速生成过程,DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程(中间没有加入随机噪音)。核心思路:定义一个数组叫做record用于遍历增加记录字符串s里字符出现的次数,然后遍历减少记录字符串t里字符出现的次数,最后判断record中的记录是否为0。是判断两个字符串中的元素出现次数,是判断两个数组中的元素出现次数,

2024-03-29 09:47:07 1238

AIGC论文-SAM-Segment Anything

AIGC论文-SAM-Segment Anything

2024-02-29

AIGC论文-DALLE-Zero-Shot Text-to-Image Generation

AIGC论文-DALLE-Zero-Shot Text-to-Image Generation

2024-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除