- 博客(233)
- 收藏
- 关注
原创 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer论文阅读
Z-Image》论文提供了一套完整、高效、低成本的SOTA图像生成模型开发蓝图。它证明了通过精巧的系统设计(高效数据、架构、训练、推理),一个相对小参数量(6B)的模型同样可以达到甚至超越参数量数十倍于它的大模型,打破了“唯规模论”的迷思。该工作不仅开源了模型权重和代码,更重要的是提供了一种高性价比的范式,为社区开发更易于访问、更经济、但性能依然顶尖的生成模型铺平了道路。两阶段策略的智慧:整个4.6节体现了一种“从粗到细”、“从客观到主观”的优化哲学。第一阶段 DPO。
2025-12-04 17:06:21
30
原创 WAN-ANIMATE: UNIFIED CHARACTER ANIMATION AND REPLACEMENT WITH HOLISTIC REPLICATION论文阅读
是一个用于角色动画和替换的顶尖框架。它通过统一的输入设计、解耦的身体与面部控制、以及专用的光照融合模块,实现了高保真、高可控、高表现力的角色视频生成。的解决方案,弥补了现有开源社区在角色动画领域(尤其是在表情、动作和环境融合的整体控制上)的不足,并致力于将模型和代码开源,以推动相关技术的发展。在“角色替换”模式中,一个核心挑战是如何让来自不同光源的角色图片,无缝地融入参考视频的环境中。Wan-Animate 建立在通义实验室开源的视频生成基础模型。该研究的主要贡献在于,它提出了一个。的统一框架,旨在解决。
2025-11-11 11:46:37
41
原创 WithAnyone: Towards Controllable and ID Consistent Image Generation论文阅读
一个创新的指标,用于量化生成图像在多大程度上偏向于复制“参考图”而不是生成“目标图”。分数范围[-1, 1],:计算生成人脸与**真实目标图像(Ground-Truth)**中人脸的相似度。这比传统只计算与参考图相似度()的指标更科学,因为它能奖励那些正确响应了prompt(比如改变了表情)同时又保持了身份的生成结果。为了科学地评估模型性能并量化“复制粘贴”问题,论文提出了MultiID-Bench。基于新的数据集和评测体系,论文提出了WithAnyone模型。(见图3):利用4种数据分阶段训练。
2025-11-04 19:37:27
205
原创 sora2 prompt指南
向模型传达你的创意构想。从简单的描述开始,逐步增加细节,并善用图片输入、Remix等高级功能进行迭代,你就能更好地驾驭Sora,创作出令人惊艳的视频作品。这份指南旨在帮助你像专业人士一样,与 Sora 2 模型有效沟通,创作出符合预期的视频。在 API 调用中明确设置,无法通过文字描述来改变。:一个好的Sora提示词,是在。
2025-10-16 10:10:40
311
原创 UNO论文阅读Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
在DiT这类Transformer模型中,位置编码至关重要。当引入多个参考图像时,如何为这些新的图像token分配位置是一个挑战。: 论文还展示了UNO在虚拟试衣、身份保持、风格化生成、故事生成等多种复杂场景下的强大泛化能力,证明了其作为通用定制化框架的潜力。
2025-09-26 15:40:37
331
原创 Story2Board: A Training-Free Approach for Expressive Storyboard Generation论文
备注:只作用于first_mixing_block(30)和last_mixing_block(57)之间,first_mixing_denoising_step(1)和last_mixing_denoising_step(21)之间。● 锚定操作 (Anchoring):强制将所有潜在表示的上半部分,都替换为第一个潜在表示的上半部分:[R’_1, p’_1], [R’_1, p’_2], …gpt-4o生成的。● 一步去噪:得到新的潜在表示:[R’_1, p’_1], [R’_2, p’_2], …
2025-09-11 19:52:55
450
原创 不同attention实现方式
3、直接在源码修改。表情attention,自己实现新的attn https://github.com/Fantasy-AMAP/fantasy-portrait/blob/main/diffsynth/models/wan_video_dit.py#L409,源码修改。
2025-09-08 15:13:43
224
原创 Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation论文
改变dit block中的self-attn,将条件图片单独attn, 视频单独attn,并且lora也只在条件图片中加。类似easycontrol,区别在于 ,一个是视频一个是图片。另一个区别是只对self-attention做区分。
2025-08-28 17:49:25
228
原创 github本地代码与远程github代码管理
一次性设置日常同步流程(或rebase(如有冲突,解决冲突)这个流程可以让你持续地从上游 GitHub 仓库获取更新,同时在自己的 GitLabdev分支上安心开发。
2025-08-28 11:18:26
729
原创 FlashAttention算法原理
FlashAttention通过算子融合技术优化注意力计算,核心是减少SRAM与HBM之间的存储访问开销。其关键优化点在于改进softmax算子,避免中间变量频繁读写,从而提升计算效率且不损失精度。类似合并BN层的思路,通过降低内存访问成本实现加速。这种方法在保持模型性能的同时显著提升了计算速度。
2025-08-27 16:43:15
222
原创 DeepSpeed大模型训练
本文介绍了利用DeepSpeed技术解决大模型训练显存不足的问题。通过ZeRO并行技术将模型状态、梯度和优化器参数分配到多个GPU上,甚至部分卸载到CPU,实现超大模型训练。根据并行程度分为ZeRO-1/2/3三个级别,虽会增加通信成本但显著提升显存利用率。ZeRO-Offload进一步将部分计算任务卸载到CPU,优化资源分配。该技术为训练参数量达160亿级别的大模型提供了可行的解决方案。
2025-08-25 11:03:15
180
原创 Qwen-Image报告
摘要:DiffSynth-Studio提出基于Qwen-VL的20B参数多模态模型MMDiT,支持文生图、编辑等多任务。核心创新包括替换文本分支为Qwen2.5-VL、设计新型位置编码。通过三阶段训练(预训练、微调、强化学习),采用渐进式数据优化策略。实验表明其中文文字生成效果领先,在文生图和编辑任务上达到SOTA。关键优势在于大规模数据工程(收集、过滤、合成)和分层训练方法。
2025-08-20 14:49:03
439
原创 wan2.2介绍
Wan2.2视频生成模型在2.1版本基础上进行了多项改进,采用MoE架构设计两个14B专家模型(分别处理高低噪声阶段),推理效率保持不变。数据量提升65.6%(图片)和83.2%(视频),实现4x16x16高压缩比,支持720P@24fps快速生成。模型具备电影级画质控制能力,支持灯光、构图等参数调节和参考图生视频功能,性能优于当前SOTA模型。项目开源地址:https://github.com/Wan-Video/Wan2.2
2025-08-14 14:10:47
592
原创 论文阅读VACE: All-in-One Video Creation and Editing
主要是统一了多个不同的视频任务,使得单一模型拥有复杂的能力。创新点注意围绕着接口设计、训练设计。模型核心结构未变。
2025-04-17 16:28:44
1276
1
原创 pdb调试跳过for循环进阶
该命令也可以直接运行跳转到某一行。意思就是一直运行到该行。jump不可以,因为jump会跳过中间行,导致程序报错。until 450(450行for循环结束)
2025-04-09 14:19:20
185
原创 videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读
文章在两个主要任务上验证了Video LDM的性能:高分辨率真实驾驶场景视频合成和基于文本的视频合成(text-to-video)。在已有的2d的生成模型基础上,插入conv3D和时间维度注意力机制。利用已有的图片生成模型的权重。
2025-04-02 14:26:56
1084
1
原创 sora技术报告Video generation models as world simulators
transformer可以很好的scale,随着scale的增加,生成的效果越来越好。使用视频的原始分辨率进行训练,有助于好看的构图生成。使用GPT将用户的短prompt扩充为复杂的长prompt,提升生成效果。在文字prompt的基础上,还可以增加图片、视频的参考。sora结合Sdedit,可以对视频进行编辑,比如风格转换,环境转换。时空的隐patches,即视频压缩后的结果。图片可以看出单帧的视频。sora参考了DALL*3对视频生成文本描述的方式。- 连接两个视频,对两个视频的内容做插值。
2025-04-02 10:34:35
599
原创 Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
由于重新定义的掩码通常比原始掩码大,这可能会限制生成的角色必须小于给定的掩码。具体方法是提取角色和交互对象,并根据其掩码进行随机缩放操作,然后将缩放后的内容重新组合回源视频。其中,F表示Conv2D-Sigmoid层,z_blend表示空间混合后的新的噪声潜在变量。:对于噪声潜在变量 和对象潜在变量将它们的特征连接起来,并通过一个Conv2D-Sigmoid层计算alpha权重。:在训练过程中,随机高斯噪声 被逐步添加到不同时间步的图像潜在变量 z_t 中。给参考图和视频,替换视频中的人物。
2025-03-27 16:39:31
1023
1
原创 diffusion基础汇总
大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective 阅读笔记 - 中森的文章 - 知乎。DDIM:从数学原理的另一个角度,重新推到,摒弃了马尔可夫过程,使得t步不依赖t-1步,加快了采样。加噪的过程理解为把所有图片压缩为一个高斯分布。所以随机采样一个噪声进行去噪就可以还原为某一个图片。DDPM:一个马尔可夫链,逐渐加噪去噪。通过随机微分方程的角度去理解扩散模型。类似雕塑家从一个石头雕刻出一个雕像。苏神:生成扩散模型漫谈系列。
2025-03-13 09:52:58
380
原创 LDM——High-Resolution Image Synthesis with Latent Diffusion Models论文阅读
高分辨率复杂图像的合成主要基于AR以及GAN,GAN的效果更好一些,但是对抗学习优化难,难以scale,导致无法扩展更大的模型复杂度,建模的复杂度有限。:计算复杂度高,生成过程是顺序的,限制了其在高分辨率图像上的应用(单步逐像素生成,下一个像素依赖上一个像素,无法并行)。分离训练阶段(先训练自编码器,再训练扩散模型),确保了在潜在空间中进行很好的重建,不需要对潜在空间进行过多的正则化。训练一个自编码器(autoencoder),将高维的像素空间映射到一个低维的潜在空间,同时保留了图像的感知信息。
2025-03-12 15:14:27
1376
1
原创 CUDA version ERR!或者RuntimeError: Unexpected error from cudaGetDeviceCount().
删除动态连接库/usr/local/cuda-12.5/targets/x86_64-linux/lib里面多的一些库就可以了。现象nvidia-smi可以正常显示,但是多了一个 CUDA version ERR!重新装nviida-smi也不能解决问题。原因:lib多了一些东西。
2025-03-04 16:47:05
285
原创 ddpm数学原理
然而,因为原始的生成过程包含了随机性(通过噪声的增加),所以在恢复过程中也需要引入相应的随机性来模仿这个噪声。这样,我们就能够遍历所有可能的噪声路径来找到对应于我们想要生成的数据的路径。变分推理的核心:用一个分布估计一个没有表达式的分布。alpha是自定义的参数。类似语言模型中的beam search作用,概率最大的不一定是最好的。进一步带入x0发现至于xt相关!假设diffusion的去噪声模型输出的分布符合高斯分布。通过变分推理,把最小化kl散度转化为最大化q的期望。假设生成的p的分布是高斯分布。
2025-03-03 19:41:20
380
原创 为什么很多都符合正态分布
理论解释:中心极限定理(central limit theorem)的随机变量,即使原始变量本身不是正态分布,标准化样本均值的抽样分布(求和取平均)趋向于标准正态分布。
2025-02-27 10:52:42
506
原创 Interactive High-Quality Green-Screen Keying via Color Unmixing
为了解决色溢问题,作者加了一个后处理,通过提高alpha数值到1。视频中的第一帧进行交互,画出基颜色(算出均值和方差)。假设视频稳定,第一帧的颜色模型可以用于其他帧。单图光照变化,引起颜色变化,提取的前景就会变化。ibk等工具2小时,本文约10分钟(微调局部颜色模型)假设图片由m个基础颜色构成,每一个基础颜色符合正态分布,基础颜色由用户交互式选择,分布参数通过算法求取。本文目标:求所有基础颜色模型的正太分布参数。如果背景复杂,少量的基础颜色不能很好的表达。评测估计效果,计算基础颜色马氏距离。
2025-02-20 19:24:41
296
原创 Robust High-Resolution Video Matting with Temporal Guidance论文解读
输出1/2,1/4, 1/8, 1/16下采样的特征。优点:一个优秀的用于人体视频matte的开源工作。同时预测了alpha和分割。使用的DGF用于高分辨率视频。在视频matte任务中引入时间信息,设计了一个rnn模块convGRU提取时间信息。特征提取encoder,回归式的encoder,基于dgf的高分辨率上采样模块。模型参数量最小,显存占用少一点,但是速度比modnet慢一点(因为有rnn)4个V100,分4阶段训练。缺点:训练过程十分繁琐。
2025-02-05 17:00:32
427
原创 MODNET论文解读
通过在其他数据上自监督的训练。让模型的3个输出彼此之间的边界信息对齐。(因为前景的人是固定的,换了domain,也就是背景,一般就是边界学习的不太好,所以要保证边界对齐),细节loss加了一个与原模型做对齐。如果前一帧与后一帧相似,与本帧不相似,则说明本帧闪烁,取前后帧的均值作为本帧的结果。卷积神经网络,分为3个模块,小分辨率目标分割、细节预测、alpha预测。分割gt通过alpha下采样+blur获取,细节只关注边界loss。因为目标定义明确,才能trimap-free。本质还是图片matte。
2025-01-20 17:22:14
265
原创 ViT论文细节
参考:https://www.bilibili.com/video/BV15P4y137jb?纯卷积模型、纯transformer模型和先卷积,再transformer(没有patch,在16倍降采样以后就一致了)的混合模型比。数据量增大以后混合模型就和纯transformer差不多了,开始的时候混合模型是最好的,但是都比卷积模型好。其余学习到的全是全局的attention。用于代表这张图的整体特征,位置设定为0,可以学习的768维度特征,最后就是用这个特征接fc,和分类头做loss学习用的。
2025-01-13 15:15:21
421
原创 cuda版本管理
背景,不同的项目需要不同的cuda版本。如一个需要cuda12, 一个需要cuda11。系统已经有一个cuda12了,那可以再安装一个cuda11, 然后通过切换版本进行管理。
2024-10-21 14:17:21
374
原创 sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。
2024-10-15 17:31:34
1494
原创 Image matting入门
Deep Image Matting:A Comprehensive Surveyhttps://www.zhihu.com/question/68146993/answer/2791899921https://github.com/michaelowenliu/awesome-image-mattinghttps://www.alphamatting.com/eval_25.phphttps://paperswithcode.com/task/image-matting
2024-09-20 10:02:59
775
原创 OPENAI O1总结Learning to Reason with LLMs
OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。
2024-09-18 11:46:38
958
原创 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读
当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。
2024-08-29 09:52:37
1375
1
原创 大模型显存计算估算
xB的大模型,训练的显存占用约为16x GB, 使用lora大概占用4xGB。(默认全精度float32存储)推理的显存占用约为4xGB。
2024-08-28 14:57:24
1296
原创 大模型微调算法汇总
Parameter-Efficient Fine-Tuning (PEFT) 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能。一般新场景的业务,需要微调大模型。不需要从0训练。
2024-08-27 11:24:30
461
原创 Code Llama: Open Foundation Models for Code论文阅读
所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。
2024-08-26 19:36:05
1158
4
原创 MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。
2024-08-19 16:26:27
1655
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅