- 博客(58)
- 收藏
- 关注
原创 从扩散模型开始的生成模型范式演变--FM(2)
我认为是有的,只不过是隐式的,不明显。我认为Flow matching中的前向过程并不是向扩散模型中通过定义显式的加噪分布来进行的,而是从目标分布中的数据推导出先验分布中的数据这一流动作实现的。说到这里,可能有的读者已经意识到了我想表达的内容,即从上述公式(1)推导公式(2)的过程中,我们利用了流的可逆性质,因为流可逆,所以基于公式(1),有。就是一个从标准正态分布中采样的一个随机噪声,就是先验分布中的一个数据样本,即我们在公式(2)的推导过程中其实是隐式的使用了一个从目标分布到先验分布的。
2024-12-14 15:10:37
627
原创 从扩散模型开始的生成模型范式演变--SDE(3)
在SDE的第二篇文章中提到过,SDE范式可以将DDPM和Score Matching整合到其范式中。起初笔者对这部分也不是很清晰,在看过B站Up主的视频后逐渐清晰,本文就基于该视频内容做一个文本性质的总结,感兴趣的读者可跳转到视频进一步了解。
2024-12-12 01:02:04
684
原创 从扩散模型开始的生成模型范式演变--SDE(2)
相信很多读者自己学习或在看完上一篇文章后,对SDE实际如何使用情况还是不清楚。其实,因为SDE是随机微分方程,所以其与DDPM中加噪的方差其实都是人为设定的,相当于超参数。所以在训练前就需要将SDE具体形式定义好,在此将SDE定义为dxσtdωt∈01(1)dxσtdωt∈011公式(1)中丢弃了SDE定义中的漂移部分,只设置了扩散部分。此时已将时间区间正则化,即范围为[0,1],也知道了dxdxdx随时间变化的公式,因为当前加噪是连续过程,故xt。
2024-12-03 00:01:54
1005
原创 从扩散模型开始的生成模型范式演变--SDE(1)
假设有一组正等比数列σii1Lσii1L,满足σ1σ2⋯σL−1σL1σ2σ1⋯σLσL−11。qσxΔ∫pdaratNx∣tσ2IdtqσxΔ∫pdaratNx∣tσ2Idt表示扰动后的数据分布。σi\sigma_iσi就表征不同的噪声等级,σ1\sigma_1σ1。
2024-11-30 23:43:11
1118
原创 从扩散模型开始的生成模型范式演变--DDPM(2)
因CSDN正文字数限制,只能拆分为两个文档,接上文继续文章目录无中生有的目标分布设计感强但有效的损失函数无中生有的目标分布如果我们有过模型训练经验,那就一定知道,需要有一个目标值或GT值与模型预测值计算损失才能实现训练闭环。在前文中我们说到,DDMP就是对“能基于xtx_txt计算出xt−1x_{t-1}xt−1”的逆向分布过程建模,模型训练预测出的分布用pθ(xt−1∣xt)p_{\theta}(x_{t-1}|x_t)pθ(xt−1∣xt)表示,那与预测分布进行比较的目标分布应该如何表示
2024-09-19 00:34:58
988
原创 从扩散模型开始的生成模型范式演变--DDPM(1)
从右到左,是加噪过程,或称为前向过程/正向过程,每一步对上一步随机增加一点噪声,经过T步后,原始图片完全变成一个噪声分布,一般假设是一个标准正太分布,这一过程可由条件概率。如果我们现在只有一批图片数据,从认知上来讲,从随机噪声生成图片是不可能的,此时就用到了引言中提到的,缺什么,就用深度学习去训练。即,有两个高斯分布,DDPM中T为1000,一步一步计算是慢的,但基于马尔可夫过程,使用重参数化技巧,能实现一步到位,即给定。生成过程,是去噪过程,或称为逆向过程,是从随机噪声出发,一步步减少噪声,即从。
2024-09-11 00:23:20
608
原创 Scaling Law解析
幂律规律有失灵的情况,即大模型中的涌现,前期算力增加,模型性能是按上述分析的规律逐渐提高,但是当算力提高到一定程度后,模型性能会突然陡增,目前来话,幂律规律只在涌现发生前有效,当具体算力提升到多少会发生涌现,目前还不知道,只能通过实践后统计发现,但一定会发生涌现。固定住计算量,随着计算量的增大,对应的最优模型参数量也越来越大,对应的最优数据量也越来越大,在对数域看就是成线性关系。不同模型架构可能也符合幂律关系,如上图中的LSTMs,同样参数量时,transformers的性能比LSTMs更好。
2024-04-06 00:00:12
2412
原创 SiT技术报告阅读
在该框架内,探索了许多关键设计选择之间的权衡:连续或离散时间模型的选择、插值的选择、模型预测的选择以及采样器的选择。DiT团队最近刚好发布了基于DiT架构研究扩散模型插值技术的论文,简称为SiT,论文行文较难理解,感兴趣的读者推荐阅读官方的技术报告,见顶部链接,本文也主要基于技术报告进行初略的解释,因为内容涉及较多公式变换,如有错误,请告知。对应于由不同时间相关函数加权的普通去噪目标的扩散模型的不同模型预测,训练了所有三个模型并给出了下面的结果。相同时,扩散和基于流的方法共享相同的时间演化过程已被证明;
2024-03-12 00:37:42
1982
原创 Stable Diffusion 3报告
将 Stable Diffusion 3 的输出图像与其他各种开放模型(包括 SDXL、SDXL Turbo、
2024-03-05 22:24:20
1239
1
原创 SORA技术报告
文档链接:https://openai.com/research/video-generation-models-as-world-simulators。
2024-02-24 23:01:00
842
原创 NUWA论文阅读
本文提出了一个统一的多模态预训练模型,称为NUWA,可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。为了在不同场景下同时覆盖语言、图像和视频,设计了一种3D Transformer编码器-解码器框架,该框架不仅可以将视频作为3D数据处理,还可以将文本和图像分别作为1D和2D数据处理。为了考虑视觉数据的性质,降低计算复杂度,提出了一种3D Nearby Attention(3DNA)机制。在8个下游任务上评估了N UWA。
2023-10-04 16:10:43
652
1
原创 Tune-A-Video论文阅读
为了复制文本到图像 (T2I) 生成的成功,最近的工作使用大规模视频数据集来训练文本到视频 (T2V) 生成器。尽管他们的结果很有希望,但这种范式的计算成本很高。本工作提出了一种新的 T2V 生成设置——One-Shot Video Tuning,仅需要一个文本-视频对。本文中模型为了进一步学习连续运动,引入了Tune-A-Video,它涉及定制的时空注意机制和有效的一次性调整策略。本文做出两个关键观察:1)T2I 模型可以生成仍然代表动词术语的图像;
2023-09-24 21:12:30
1289
原创 GODIVA论文阅读
从文本生成视频任务是极具挑战性的任务,由于其训练的高计算需求和答案无限性难以评估。当前的工作通常在简单或小型数据集上进行实现,泛化能力非常有限。本工作提出了GODIVA,一种开放域文本到视频的预训练模型,可以使用三维稀疏注意机制以自回归的方式从文本中生成视频。在 Howto100M 上预训练模型,这是一个包含超过 13600 万个文本-视频对的大规模文本-视频数据集。实验表明,GODIVA 不仅可以在下游视频生成任务上进行微调,而且在zero-shot的文本上也具有良好的零样本能力。
2023-09-17 17:31:33
605
3
原创 【知识图谱搭建到应用】--知识存储--04
前面几篇在讲述骗理论的内容,本片主要描述如何将清洗过的结构化数据存储在转换成三元组并存储起来,并于后续使用。
2023-06-05 22:07:49
918
1
原创 【知识图谱搭建到应用】--知识表示--02
有众多的图数据库、原生数据库能用存储RDF三元组数据,并且上前也说了RDF序列化有多种保存格式,往往会存在格式之间的转换,rdflib这个pyhon库可以解析基本所有的RDF三元组格式,并且再将其序列化为其他的格式,实现RDF文件格式的转换。如,一个城市的人口是随时间变化的,这意味着每当查询人口时,都带有一个隐式的条件,即日期;知识图谱中基础是“三元组”,可理解为主-谓-宾,两头是两个实体,中间是两者之间的关系,而在三元组的基础上因为关系的存在构成可表示负责知识的语义网,但本质的关系单元还是三元组。
2023-06-05 21:15:38
1378
1
原创 【知识图谱搭建到应用】--知识搜集与建模--03
对于知识图谱,最基本的、基础的就是知识;知识图谱中的知识,其实不是什么难以理解、高深莫测的内容,可以是对某一件事情的说明,可以是某一事物的特征,可以是两者之间的关系,直白说知识就是对某一领域或整个开发域中存在事物的“记录”,并且一般是事实性的记录,因为只有真的知识才是有效的。若针对某一垂直领域构建知识图谱,知识收集和建模应该是相辅相成的;项目或工作开始初期,肯定是有一个目标是,比如问答系统就是能覆盖具体事物、具体属性、具体关系等,从业务层面抽离出一个知识架构;
2023-05-15 22:19:32
189
原创 【知识图谱搭建到应用】--序言--01
从我个人和开这篇专栏的角度来说,最开始接触到知识图谱是因为需要开发一个基于知识的问答系统,虽然因为生成式范式的根本原因使得ChatGPT在知识回答方面目前还存在大大小小的问题,但后续这个问题肯定也会被解决,像知识抽取、问答等传统NLP领域就真的不需要在专门花精力去做了。可是这次不同,ChatGPT其功能之强大,使用之便利,落地之快速,都是之间的热点技术所不及的,越来越多的人将之称为第四次工业革命,其对我们的日常生活、工作方式都已产生巨大的影响。本专栏开展过程中有以下几点期望。
2023-04-30 22:55:09
552
原创 Improved Techniques for Training Score-Based Generative Models论文阅读
Improved Techniques for Training Score-Based Generative Models论文阅读
2022-12-18 10:35:07
1329
1
原创 Generative Modeling by Estimating Gradients of the Data Distribution论文阅读
Generative Modeling by Estimating Gradients of the Data Distribution论文阅读
2022-12-04 14:31:38
474
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人