zzfive-CSDN博客

原创 Ovi-音视频生成模型

Ovi采用对称双主干网络设计，其音频分支与视频分支并行构建，且二者均基于完全相同的DiT架构。其中，视频分支由Wan2.2 5B模型初始化，而结构完全一致的音频分支则采用从头训练。因此，两个主干网络拥有相同数量的Transformer块、注意力头、注意力头维度以及前馈网络，实现了每一层级的对称性，具体细节如表 1 所示。表1 Ovi双主干网络的Transformer超参数每个Transformer块都包含成对的交叉注意力层：音频流会对视频流进行注意力计算，而视频流也会反过来对音频流进行注意力计算。

2025-10-16 23:04:58 1314

原创 Qwen3-Omni

如图1所示，Qwen3-Omni采用 “思考者 - 对话者”（Thinker-Talker）架构。Thinker与Talker均采用MoE架构，以支持高并发处理与快速推理；Talker不再接收Thinker的高层级文本表征，仅以音频和视觉多模态特征作为条件（进行语音生成）。该设计的核心考量如下：（1）对于文本内容而言，离散token与嵌入向量在信息层面具有等效性；（2）多模态条件控制对于 “音视频协同语音生成” 至关重要，例如在语音翻译任务中需保持语音的韵律与音色。

2025-10-03 16:03:15 1144

原创文本编码--BPE

将输入文本拆分为单个字节重复查找并合并、替换字节对，继续合并关系重复步骤2，直到无法构建更多的合并最终构建有效词表，基于其可进行编解码self.bpe_merges = {} # 字典，key是元组，即合并的两个tokend_id，value是合并后的一个token_id"""Args:"""for i, char in enumerate(text): # 将文本中的空格替换为Ġ= 0:if char!

2025-09-27 22:21:46 914

原创 FramePack

本文提出了一种神经网络结构FramePack，旨在解决视频生成领域中下一帧预测模型面临的“遗忘 - 漂移”困境。FramePack会根据输入帧的重要性对其进行渐进式压缩，确保无论视频时长如何，总上下文长度都能收敛到一个固定的上限。这一目标通过为不同压缩率调整Transformer的分块核大小来实现。结合抗漂移采样方法，该方法通过提前确定的端点或反转的时间顺序融入双向上下文，能够在保持计算瓶颈不变的前提下，生成更长的视频。

2025-09-19 21:53:58 874

原创 Wan系列模型解析--S2V

当前SOTA的音频驱动角色动画方法在语音和歌唱场景表现较好，但在影视制作所需的精细角色互动、真实肢体动作及动态镜头等复杂元素上存在不足；为此，研究团队提出基于Wan构建的音频驱动模型Wan-S2V，其在影视场景中的表现力和保真度显著优于现有方法，通过与Hunyuan-Avatar、Omnihuman等前沿模型的大量实验对比，结果一致证明该模型性能更优，同时还探索了其在长视频生成和精准视频唇同步编辑中的应用。

2025-09-14 21:21:13 1085

原创 Wan系列模型解析--VACE

DiT在生成高质量图像和视频方面已展现出强大的能力与可扩展性，进一步追求生成与编辑任务的统一需求也越来越明显，但由于视频合成对时空动态一致性存在内在需求，实现视频合成的统一方法仍面临挑战。本文提出 VACE，即一体化视频创作与编辑框架，该框架支持用户在单一平台内完成多种视频任务，包括图片生视频、视频编辑以及掩码引导的视频编辑。

2025-09-07 23:11:51 1356

原创 Wan系列模型解析--详细架构图

注意点：

2025-09-03 21:24:59 1229

原创 Flux.1系列模型解析--Kontext

Flux.1 Kontext是将图像生成和编辑任务统一的生成流匹配模型，其通过整合文本和图像输入中的语义上下文，生成全新的输出视图。Flux.1 Kontext采用简单的序列拼接，在单一的统一架构中同时处理局部编辑和生成式上下文任务；其在多轮操作中对物体和字符有较强的保留能力，相较于其他SOTA编辑模型生成速度也更快；为了验证上述改进，论文提出了KontextBench，包含1026个图像-提示词对数据，覆盖局部编辑、全局编辑、字符参考、风格参考和文本编辑五类任务。

2025-08-12 22:16:20 2279

原创 Flux.1系列模型解析--Flux.1 Tools

Flux.1模型的基础能力已经很强，但是局部生成、控制生成等方面仍不足，bfl随进一步训练，开发了Flux.1 Tools系列模型，包含四个模型，具体情况如下。Fill：根据文本描述和二进制掩码编辑或扩展输入图像，即Inpainting和Outpainting，是一个基模型Redux：一个能对输入图片进行细微变化或调整的Adapter模型，可以和所有Flux.1基模型组合使用Depth：可接受条件图像的深度信息控制生成图片，有基模型或lora模型。

2025-08-05 22:32:03 1134 1

原创 Flux.1系列模型解析--Flux.1

Flux.1模型有三个版本，分别是pro、dev和schnell，三个模型性能依次递减，但生图效率依次提高。dev和schnell基于pro模型蒸馏而来，pro模型只能通过api访问，而dev、shcnell模型可获取具体权重，bfl并没有对Flux.1系列模型架构进行过多展示，只表明基于多模态和并行扩散 Transformer 模块的混合架构，参数扩展到了12B；通过基于流匹配范式训练，且引入旋转位置编码和并行注意力层来提高模型性能并提升硬件效率。图1 Flux.1模型架构图。

2025-07-31 19:32:58 2044

原创 RoPE简单解析

本文聚焦于RoPE（旋转位置编码）的实现原理与应用方式。文章首先通过二维复数旋转的数学推导，展示RoPE如何将位置信息融入词向量：通过旋转矩阵作用使点积计算仅与相对位置相关。针对高维向量实现，文中详细拆解了处理步骤：将d维向量视为d/2个复数对，每对采用不同旋转角度计算；同时给出基础旋转角公式θ_i=10000^(-2i/d)。在实现层面，文章介绍了维度变换与旋转矩阵乘法的具体操作流程，并提供了朴素实现代码示例，包括旋转矩阵生成和嵌入应用函数。这种实现方式能够有效在自注意力机制中引入相对位置信息，适用于各类

2025-07-29 21:23:51 1074

原创 RLVR的一种扩展方案--RLPR论文阅读

可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型（LLMs）的推理能力方面展现出了良好潜力，但其依赖基于规则、准确答案或代码运行等可验证的硬奖励，使其很大程度上局限于数据和代码领域。为了解决此问题，本论文作者发现LLMs生成正确自由形式答案的内在概率能直接反应其对推理奖励的自我评估，即推理过程对得出争取答案的贡献程度；

2025-07-23 23:38:46 1246 1

原创早期SD模型控制生成方法

Stable Diffusion系列模型出现，极大推动了扩散模型、AI图片生成技术发展，但由于生成结果可控性差使得其主要流行于各种社区，难以直接应用于生产，不能实际落地。随着技术发展，模型基础能力越来越强，生成可控性也越来越好，但即使如今的Flux、SD3、MJ、GPT-4o等各系列模型中也没有完全解决此问题。在SD模型初期出现过各种提高控制性生成的方法，本文档对其中使用较广泛的三个进行简短说明。

2025-07-20 17:05:54 1310

原创大模型聊天模板

摘要：聊天模板是用于结构化组织大模型对话数据的格式化规则，将用户、助手等角色信息通过特定标记（如特殊字符或Jinja模板）转换为模型训练时的统一输入格式。不同模型（如Alpaca、ChatML）的模板差异显著，例如使用[USER]或<|im_start|>等标记区分角色。模板不统一的原因包括研发团队的独立性、模型功能扩展（如多模态支持）的灵活性需求，以及避免硬性标准对创新的限制。尽管Hugging Face的transformers库已集成模板功能，但未正确匹配模板可能导致性能下降的静默错误。

2025-07-13 10:34:53 1052

原创 CFG的前世今生

DDPM将扩散模型在图片生成任务中做work后，大量研究人员开始对其进行迭代。虽然DDPM论文证明了扩散模型在图片生成任务中的潜力，但是其整体性能，特别是“有条件生成”，相较于当时的GAN系列模型还是存在差距，直到Openai的这篇论文出现，扩散模型在有条件图片生成任务上超过了GANs，而这篇论文对上篇论文中的核心思想进行优化，提高模型的性能和计算效率，该方法就是目前在扩散模型生成领域广泛使用的CFG。

2025-06-19 22:53:21 717

原创 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的LLM预测下一个token的范式不同。VAR首次基于GPT架构的AR模型在图片生成方面超过了扩散模型，在 ImageNet 256×256 基准测试中，FID、IS分数均大幅提高，推理速度也快了将近20倍。实验证实，VAR在图像质量、推理速度、数据效率和可扩展性等多个维度由于DiT，且其具有明显的Scaling规律，在图像修复、外绘、编辑等下游任务中具有较好的泛化能力。

2025-06-14 17:22:54 1131

原创从扩散模型开始的生成模型范式演变--FM(2)

我认为是有的，只不过是隐式的，不明显。我认为Flow matching中的前向过程并不是向扩散模型中通过定义显式的加噪分布来进行的，而是从目标分布中的数据推导出先验分布中的数据这一流动作实现的。说到这里，可能有的读者已经意识到了我想表达的内容，即从上述公式(1)推导公式(2)的过程中，我们利用了流的可逆性质，因为流可逆，所以基于公式(1)，有。就是一个从标准正态分布中采样的一个随机噪声，就是先验分布中的一个数据样本，即我们在公式(2)的推导过程中其实是隐式的使用了一个从目标分布到先验分布的。

2024-12-14 15:10:37 838

原创从扩散模型开始的生成模型范式演变--SDE(3)

在SDE的第二篇文章中提到过，SDE范式可以将DDPM和Score Matching整合到其范式中。起初笔者对这部分也不是很清晰，在看过B站Up主的视频后逐渐清晰，本文就基于该视频内容做一个文本性质的总结，感兴趣的读者可跳转到视频进一步了解。

2024-12-12 01:02:04 864

原创从扩散模型开始的生成模型范式演变--FM(1)

ut。

2024-12-08 00:11:45 1435

原创从扩散模型开始的生成模型范式演变--SDE(2)

相信很多读者自己学习或在看完上一篇文章后，对SDE实际如何使用情况还是不清楚。其实，因为SDE是随机微分方程，所以其与DDPM中加噪的方差其实都是人为设定的，相当于超参数。所以在训练前就需要将SDE具体形式定义好，在此将SDE定义为dxσtdωt∈01(1)dxσtdωt∈011公式(1)中丢弃了SDE定义中的漂移部分，只设置了扩散部分。此时已将时间区间正则化，即范围为[0,1]，也知道了dxdxdx随时间变化的公式，因为当前加噪是连续过程，故xt。

2024-12-03 00:01:54 1247

原创从扩散模型开始的生成模型范式演变--SDE(1)

假设有一组正等比数列σii1Lσii1L，满足σ1σ2⋯σL−1σL1σ2σ1⋯σLσL−11。qσxΔ∫pdaratNx∣tσ2IdtqσxΔ∫pdaratNx∣tσ2Idt表示扰动后的数据分布。σi\sigma_iσi就表征不同的噪声等级，σ1\sigma_1σ1。

2024-11-30 23:43:11 1477

原创从扩散模型开始的生成模型范式演变--DDPM(2)

因CSDN正文字数限制，只能拆分为两个文档，接上文继续文章目录无中生有的目标分布设计感强但有效的损失函数无中生有的目标分布如果我们有过模型训练经验，那就一定知道，需要有一个目标值或GT值与模型预测值计算损失才能实现训练闭环。在前文中我们说到，DDMP就是对“能基于xtx_txt计算出xt−1x_{t-1}xt−1”的逆向分布过程建模，模型训练预测出的分布用pθ(xt−1∣xt)p_{\theta}(x_{t-1}|x_t)pθ(xt−1∣xt)表示，那与预测分布进行比较的目标分布应该如何表示

2024-09-19 00:34:58 1123

原创从扩散模型开始的生成模型范式演变--DDPM(1)

从右到左，是加噪过程，或称为前向过程/正向过程，每一步对上一步随机增加一点噪声，经过T步后，原始图片完全变成一个噪声分布，一般假设是一个标准正太分布，这一过程可由条件概率。如果我们现在只有一批图片数据，从认知上来讲，从随机噪声生成图片是不可能的，此时就用到了引言中提到的，缺什么，就用深度学习去训练。即，有两个高斯分布，DDPM中T为1000，一步一步计算是慢的，但基于马尔可夫过程，使用重参数化技巧，能实现一步到位，即给定。生成过程，是去噪过程，或称为逆向过程，是从随机噪声出发，一步步减少噪声，即从。

2024-09-11 00:23:20 855

原创 Scaling Law解析

幂律规律有失灵的情况，即大模型中的涌现，前期算力增加，模型性能是按上述分析的规律逐渐提高，但是当算力提高到一定程度后，模型性能会突然陡增，目前来话，幂律规律只在涌现发生前有效，当具体算力提升到多少会发生涌现，目前还不知道，只能通过实践后统计发现，但一定会发生涌现。固定住计算量，随着计算量的增大，对应的最优模型参数量也越来越大，对应的最优数据量也越来越大，在对数域看就是成线性关系。不同模型架构可能也符合幂律关系，如上图中的LSTMs，同样参数量时，transformers的性能比LSTMs更好。

2024-04-06 00:00:12 2910

原创 SiT技术报告阅读

在该框架内，探索了许多关键设计选择之间的权衡：连续或离散时间模型的选择、插值的选择、模型预测的选择以及采样器的选择。DiT团队最近刚好发布了基于DiT架构研究扩散模型插值技术的论文，简称为SiT，论文行文较难理解，感兴趣的读者推荐阅读官方的技术报告，见顶部链接，本文也主要基于技术报告进行初略的解释，因为内容涉及较多公式变换，如有错误，请告知。对应于由不同时间相关函数加权的普通去噪目标的扩散模型的不同模型预测，训练了所有三个模型并给出了下面的结果。相同时，扩散和基于流的方法共享相同的时间演化过程已被证明；

2024-03-12 00:37:42 2976

原创 Stable Diffusion 3报告

将 Stable Diffusion 3 的输出图像与其他各种开放模型（包括 SDXL、SDXL Turbo、

2024-03-05 22:24:20 1478 1

原创 SORA技术报告

文档链接：https://openai.com/research/video-generation-models-as-world-simulators。

2024-02-24 23:01:00 971

原创 NUWA论文阅读

本文提出了一个统一的多模态预训练模型，称为NUWA，可以为各种视觉合成任务生成新的或操纵现有的视觉数据(即图像和视频)。为了在不同场景下同时覆盖语言、图像和视频，设计了一种3D Transformer编码器-解码器框架，该框架不仅可以将视频作为3D数据处理，还可以将文本和图像分别作为1D和2D数据处理。为了考虑视觉数据的性质，降低计算复杂度，提出了一种3D Nearby Attention(3DNA)机制。在8个下游任务上评估了N UWA。

2023-10-04 16:10:43 842 1

原创 Tune-A-Video论文阅读

为了复制文本到图像 (T2I) 生成的成功，最近的工作使用大规模视频数据集来训练文本到视频 (T2V) 生成器。尽管他们的结果很有希望，但这种范式的计算成本很高。本工作提出了一种新的 T2V 生成设置——One-Shot Video Tuning，仅需要一个文本-视频对。本文中模型为了进一步学习连续运动，引入了Tune-A-Video，它涉及定制的时空注意机制和有效的一次性调整策略。本文做出两个关键观察：1）T2I 模型可以生成仍然代表动词术语的图像；

2023-09-24 21:12:30 1614

原创 GODIVA论文阅读

从文本生成视频任务是极具挑战性的任务，由于其训练的高计算需求和答案无限性难以评估。当前的工作通常在简单或小型数据集上进行实现，泛化能力非常有限。本工作提出了GODIVA，一种开放域文本到视频的预训练模型，可以使用三维稀疏注意机制以自回归的方式从文本中生成视频。在 Howto100M 上预训练模型，这是一个包含超过 13600 万个文本-视频对的大规模文本-视频数据集。实验表明，GODIVA 不仅可以在下游视频生成任务上进行微调，而且在zero-shot的文本上也具有良好的零样本能力。

2023-09-17 17:31:33 789 3

原创【知识图谱搭建到应用】--知识存储--04

前面几篇在讲述骗理论的内容，本片主要描述如何将清洗过的结构化数据存储在转换成三元组并存储起来，并于后续使用。

2023-06-05 22:07:49 1176 1

原创【知识图谱搭建到应用】--知识表示--02

有众多的图数据库、原生数据库能用存储RDF三元组数据，并且上前也说了RDF序列化有多种保存格式，往往会存在格式之间的转换，rdflib这个pyhon库可以解析基本所有的RDF三元组格式，并且再将其序列化为其他的格式，实现RDF文件格式的转换。如，一个城市的人口是随时间变化的，这意味着每当查询人口时，都带有一个隐式的条件，即日期；知识图谱中基础是“三元组”，可理解为主-谓-宾，两头是两个实体，中间是两者之间的关系，而在三元组的基础上因为关系的存在构成可表示负责知识的语义网，但本质的关系单元还是三元组。

2023-06-05 21:15:38 1499 1

空空如也

空空如也