- 博客(506)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 更改pip源至清华、阿里、中科大镜像(临时使用)
可以在使用pip的时候加参数清华源:-i https://pypi.tuna.tsinghua.edu.cn/simple阿里源:-i https://mirrors.aliyun.com/pypi/simple中科大源:-i https://pypi.mirrors.ustc.edu.cn/simple/ ...
2019-10-05 16:29:07
13718
原创 (Arxiv-2026)FlowInOne:将多模态生成统一为图像输入、图像输出的流匹配
本文提出FlowInOne框架,将多模态生成统一为纯视觉流的图像输入-输出范式。通过将文本、布局等输入转换为视觉提示,并使用单一流匹配模型处理,该方法消除了跨模态对齐瓶颈和任务特定架构。作者构建了VisPrompt-5M数据集(500万视觉提示对)和VP-Bench评估基准,涵盖文本生成、图像编辑和物理感知任务。实验表明,FlowInOne在指令忠实度、空间精度等方面达到SOTA性能,为全视觉中心生成建模奠定新基础。
2026-04-28 11:08:38
222
原创 (Arxiv-2026)Kiwi-Edit:通过指令与参考引导实现通用视频编辑
本文提出Kiwi-Edit框架,通过指令与参考引导实现通用视频编辑。针对现有方法在视觉控制精度上的不足,作者构建了RefVIE数据集(47.7万高质量四元组)和RefVIE-Bench评估基准。Kiwi-Edit采用多模态大语言模型与扩散Transformer结合的双连接器架构,通过三阶段训练策略实现指令与参考的协同引导。实验表明,该方法在可控视频编辑任务上达到新的最优水平。
2026-03-24 17:21:00
722
原创 (Arxiv-2026)Helios:真正的实时长视频生成模型
Helios:首个14B实时长视频生成模型 北京大学团队提出的Helios实现了三大突破: 在单张H100 GPU上达到19.5 FPS,支持分钟级视频生成 无需抗漂移启发式方法,解决了位置/颜色/复原漂移问题 采用自回归扩散架构,统一支持T2V/I2V/V2V任务 关键技术包括: 统一历史注入机制实现无限视频续写 对抗式分层蒸馏将采样步数从50步降至3步 记忆分块和金字塔预测器减少计算量 实验显示,Helios在质量和速度上均优于现有方法,相比1.3B模型实现了128倍加速。团队还发布了包含240个提示词
2026-03-24 16:26:51
2348
1
原创 (Arxiv-2026)HiAR:基于分层去噪的高效自回归长视频生成
本文提出HiAR,一种基于分层去噪的高效自回归长视频生成方法。针对现有自回归视频生成方法中因误差累积导致的质量退化问题,HiAR创新性地采用分层去噪框架:在每个去噪步骤中跨所有块执行因果生成,使每个块始终以相同噪声水平的上下文为条件,有效减少了误差传播。该方法还实现了流水线并行推理,获得约1.8倍的加速。此外,针对训练过程中出现的低运动捷径问题,作者提出基于双向注意力的正向KL正则化器,保持运动多样性。在VBench评估中,HiAR取得了最佳总体得分和最低时间漂移,为长视频生成提供了稳定高效的解决方案。
2026-03-24 15:07:01
719
原创 (ICLR-2026)LONGLIVE:实时交互式长视频生成
LONGLIVE是一种实时交互式长视频生成框架,通过逐帧自回归设计解决长视频生成在质量和效率上的挑战。该框架采用KV-recache机制实现平滑的提示切换,提出streaming long tuning策略对齐训练与推理,并引入short window attention加速生成。实验表明,LONGLIVE在单张H100 GPU上能以20.7 FPS生成长达240秒的视频,支持INT8量化且质量损失极小。该方法仅需32个GPU-days微调即可从短视频模型扩展到分钟级视频生成,在VBench测试中表现优异。
2026-03-24 11:20:36
332
原创 (Arxiv-2026)Causal Forcing:为高质量实时交互式视频生成正确实现的自回归扩散蒸馏
本文提出Causal Forcing方法,用于解决自回归视频扩散模型蒸馏中的架构差距问题。现有方法从双向教师模型蒸馏自回归学生模型时,会违反帧级单射性条件,导致性能下降。作者通过理论分析表明,这种差距应在ODE初始化阶段解决。Causal Forcing采用自回归教师进行ODE蒸馏,确保满足帧级单射性,使学生模型能准确学习流映射。实验表明,该方法在所有指标上均优于基线模型,在动态程度、视觉质量和指令跟随能力方面分别提升19.3%、8.7%和16.7%,为实时交互式视频生成提供了更优解决方案。
2026-03-23 17:39:42
939
原创 (CVPR-2025)从缓慢的双向视频扩散模型到快速的自回归视频扩散模型
本文提出了一种将双向视频扩散模型转化为快速自回归模型的方法CausVid,显著提升了视频生成效率。传统双向扩散模型生成128帧视频需219秒且需等待全部生成完成,而该方法通过将预训练双向扩散Transformer改造为因果自回归架构,结合创新的非对称蒸馏策略,实现了仅1.3秒初始延迟后以9.4 FPS流式生成。该方法还引入了基于教师ODE轨迹的学生初始化方案,有效缓解了自回归模型的误差累积问题,使其能够生成长于训练时长的视频。实验表明,该方法在VBench-Long基准上取得84.27分,超越现有视频生成模
2026-03-23 10:29:52
562
原创 (NIPS-2025)自强制:弥合自回归视频扩散中的训练–测试差距
本文提出Self Forcing方法,用于解决自回归视频扩散模型中训练与测试阶段的分布不匹配问题。传统方法(如Teacher Forcing和Diffusion Forcing)在训练时依赖真实或带噪上下文帧进行去噪,导致推理阶段因依赖自身生成结果而产生误差累积。Self Forcing通过在训练过程中自回归展开,使每一帧生成都基于模型自身先前输出,从而直接优化完整生成序列的质量。该方法结合少步扩散模型和梯度截断策略实现高效训练,并引入滚动式KV缓存机制支持实时视频外推。实验表明,该方法在单GPU上可实现1
2026-01-15 10:23:32
931
原创 (Arxiv-2025)全属性:用于视觉概念个性化的开放词汇属性编码器
本文提出Omni-Attribute,首个开放词汇图像属性编码器,能够从视觉输入中提取属性特定的表示。通过构建带有正负属性标注的语义关联图像对,并采用双目标训练范式(生成式损失确保高保真重建,对比损失实现属性解耦),该方法学习到的嵌入既能保留目标属性的细粒度细节,又能抑制无关信息。实验表明,Omni-Attribute在属性检索、个性化和组合生成任务中均达到最优性能,有效解决了传统方法中的"复制粘贴"伪影问题。该工作为视觉概念解耦和可控图像生成提供了新的解决方案。
2025-12-15 16:12:21
717
原创 (Arxiv-2025)零样本参考到视频生成的扩展
本文提出Saber框架,通过创新的带掩码训练策略解决参考到视频生成(R2V)的数据瓶颈问题。Saber仅需视频-文本对训练,无需昂贵的三元组数据,采用随机掩码视频帧作为参考图像,配合定制注意力机制学习身份一致性表征。实验表明Saber在OpenS2V-Eval基准上优于现有方法,并展现出对多参考图像和多视角的强泛化能力。该方法为大规模R2V研究提供了新方向。
2025-12-11 16:26:13
1059
原创 (NIPS-2025)PolyVivid:具有跨模态交互与增强的生动多主体视频生成
本文提出了PolyVivid框架,用于解决多主体视频生成中的身份一致性和交互控制问题。该方法通过VLLM建立文本与图像的语义对齐,利用3D-RoPE模块实现跨模态双向信息融合,并设计了注意力继承机制防止身份漂移。此外,基于MLLM的数据构建流程结合团簇分析策略,有效提升了多主体区分度。实验表明,PolyVivid在身份保真度、视频真实感和主体对齐方面显著优于现有方法。该工作为细粒度可控的视频生成提供了新思路,在150字内完整概括了研究背景、方法创新和主要贡献。
2025-11-25 16:12:50
600
原创 (Arxiv-2025)ID-COMPOSER:具有分层身份保持的多主体视频合成
本文提出ID-COMPOSER框架,用于解决多主体视频生成中的身份保持、语义整合和时间一致性难题。该框架创新性地设计了分层身份保持注意力机制,通过主体内部、主体间和跨模态三个层次的特征聚合,有效维持多主体身份一致性;同时引入基于视觉-语言模型的语义理解模块,提升多主体交互的细粒度控制。此外,采用在线强化学习优化生成质量,并构建了专门的多主体视频数据集。实验表明,ID-COMPOSER在身份保持、视频质量和时间一致性方面显著优于现有方法,为个性化内容创作等应用提供了新思路。
2025-11-24 16:47:20
1208
原创 (Arxiv-2025)MAGREF:用于任意参考视频生成的掩码引导与主体解耦
本文提出MAGREF框架,用于解决任意参考视频生成中的身份不一致、主体混淆和拷贝-粘贴伪影等关键问题。该方法创新性地结合掩码引导与主体解耦机制:通过区域感知掩码实现多参考图像在通道维度的特征保留,同时利用主体解耦将文本语义注入对应视觉区域以避免混淆。此外,设计了四阶段数据管线来构建多样化训练样本。实验表明,MAGREF在多项指标上优于现有方法,为可控、高保真的多主体视频生成提供了有效解决方案。
2025-11-24 16:41:43
1322
原创 (CVPR-2025)重建与生成之间的权衡:在潜空间扩散模型中驯服优化困境
本文针对潜空间扩散模型中存在的重建与生成优化困境,提出了一种视觉基础模型对齐的VAE(VA-VAE)方法。研究发现,传统高维分词器虽能提升重建质量,却导致扩散模型收敛困难。通过引入视觉基础模型对齐损失(VF Loss),该工作有效约束了潜空间分布,在保持高重建能力的同时显著提升生成性能。配合改进的LightningDiT框架,系统在ImageNet 256×256生成任务上取得FID 1.35的SOTA结果,并实现21倍的训练加速(64 epoch达FID 2.11)。这一创新通过预训练视觉表征引导潜空间学
2025-11-19 14:40:38
1164
原创 (SIGGRAPH Asia-2025)ConsistEdit:高度一致且精确的无需训练视觉编辑
本文摘要: ConsistEdit是一种针对多模态扩散Transformer(MM-DiT)设计的免训练视觉编辑方法。通过深入分析MM-DiT的注意力机制,研究者提出了三个关键发现:仅视觉部分的修改至关重要、各层均保留丰富语义信息、Q和K对结构控制具有强影响力。基于这些洞察,ConsistEdit采用三项核心技术:视觉专用注意力控制、掩码引导的预注意力融合、以及对Q/K/V的差异化操作。实验表明,该方法在保持编辑区域结构一致性和非编辑区域完整性的同时,支持多轮和多区域编辑,并可对结构一致性进行精细调节。相较
2025-11-18 15:12:56
608
原创 (AAAI-2026_Oral)通过自回归表示对齐释放大型语言模型在文本到图像生成中的潜力
本文提出了一种新颖的自回归表示对齐(ARRA)训练框架,旨在无需架构修改的情况下提升大型语言模型(LLMs)在文本到图像生成任务中的表现。ARRA通过引入混合token <HYBNEXT>,将局部下一token预测与外部视觉基础模型的全局语义对齐相结合,同时保留了原始自回归范式的优势。实验结果表明,ARRA在自然图像和医学图像生成任务中均取得显著改进:在ImageNet上FID降低16.6%,在医学影像任务上FID降低25.5%。该框架展现出即插即用的通用性,支持从零训练T2I模型、文本模型转换
2025-11-17 15:04:44
1297
原创 (Arxiv-2025)BINDWEAVE:通过跨模态整合实现主体一致性的视频生成
BindWeave提出了一种跨模态整合框架,通过多模态大语言模型(MLLM)实现主体一致性视频生成。该方法利用MLLM进行深层语义解析,将文本指令与视觉实体绑定,生成主体感知的隐状态来调控扩散Transformer。通过整合MLLM推理、CLIP语义特征和VAE细节特征,BindWeave在复杂多主体场景中实现了高保真且主体一致的视频生成。实验表明,该方法在OpenS2V基准上显著优于现有模型,为定制化视频生成提供了有效解决方案。
2025-11-10 16:01:27
1196
原创 (Arxiv-2025)KALEIDO:开源的多主体参考视频生成模型
摘要: 本文提出KALEIDO,一种开源的多主体参考视频生成模型,通过优化数据构建和条件注入策略解决现有S2V模型在多主体一致性和背景解耦方面的不足。KALEIDO采用严格筛选与交叉配对的数据管线增强多样性,并引入参考旋转位置编码(R-RoPE)实现高效多图像融合。实验表明,KALEIDO在主体保真度、背景解耦和生成质量上显著优于现有方法。代码和模型已开源,推动S2V领域研究进展。
2025-11-10 15:04:51
1650
原创 (Arxiv-2025)Lynx:迈向高保真个性化视频生成
摘要: 字节跳动提出Lynx模型,实现了从单张图像生成高保真个性化视频。基于扩散Transformer(DiT),Lynx通过两个轻量适配器(ID-adapter和Ref-adapter)保持身份一致性:ID-adapter将人脸特征转换为身份token,Ref-adapter通过跨注意力注入VAE细节特征。在40个主体和20个提示的测试集上(共800个案例),Lynx在身份相似度、提示跟随和视频质量上均优于现有方法,同时支持多样光照、姿态和场景变化。训练采用时空帧打包和渐进策略,平衡了效率与生成效果。
2025-09-26 16:36:29
1421
原创 (Arxiv-2025)OmniInsert:无遮罩视频插入任意参考通过扩散 Transformer 模型
摘要 本文提出OmniInsert,一种基于扩散Transformer的无遮罩视频插入方法,能够将任意参考主体无缝融入源视频。针对该任务的数据稀缺、主体-场景平衡和插入协调三大挑战,作者提出:(1) InsertPipe数据管道,通过RealCapture、SynthGen和SimInteract三种方式自动构建多样化训练数据;(2) OmniInsert框架,包含条件特定特征注入机制(CFI)实现多源条件区分性融合,配合渐进式训练策略(PT)和主体聚焦损失(SL)优化主体一致性;(3) 插入式偏好优化(I
2025-09-24 16:18:46
2316
原创 (Arxiv-2025)重构对齐提升了统一多模态模型的性能
本文提出重构对齐(RecA),一种高效的后训练方法,用于提升统一多模态模型(UMM)的性能。传统UMM训练依赖稀疏的图文对,导致视觉细节丢失。RecA利用视觉理解编码器的嵌入作为密集"文本提示",通过自监督重构损失重新对齐理解与生成模块。实验表明,仅需27个GPU小时的后训练,RecA就能显著提升图像生成(GenEval从0.73→0.90)和编辑(ImgEdit从3.38→3.75)性能,超越更大规模的模型。该方法通用性强,适用于自回归、掩码自回归和基于扩散的不同UMM架构。核心创新在
2025-09-11 17:30:00
2382
原创 (ICLR-2025)SANA:高效高分辨率图像合成的线性扩散 Transformer
SANA:高效高分辨率图像生成的线性扩散Transformer NVIDIA提出的SANA框架在ICLR 2025上展示了一种高效生成4K分辨率图像的新方法。该框架通过四大创新设计显著提升了性能:1) 采用32倍压缩的深度自动编码器,大幅减少潜在token数量;2) 使用线性注意力机制替代传统注意力,将复杂度从O(N²)降至O(N);3) 引入Gemma LLM作为文本编码器,增强指令跟随能力;4) 开发Flow-DPM-Solver减少采样步数。实验表明,仅0.6B参数的SANA模型在性能上媲美12B参数
2025-09-10 16:53:30
1200
原创 (ICLR-2025)深度压缩自动编码器用于高效高分辨率扩散模型
本文摘要: MIT研究人员提出深度压缩自动编码器(DC-AE),通过两种创新技术显著提升高分辨率扩散模型的效率:(1)残差自动编码技术,通过空间到通道变换学习残差特征,解决高压缩比下的优化难题;(2)解耦高分辨率适应策略,采用三阶段训练方法减轻泛化损失。实验表明,DC-AE将空间压缩比提升至128倍仍保持重建质量,在ImageNet 512×512任务中,为UViT-H模型带来19.1倍推理加速和17.9倍训练加速,同时FID指标优于当前主流的SD-VAE-f8自动编码器。该工作为高分辨率图像生成提供了一种
2025-09-10 15:32:22
1259
原创 (Arxiv-2025)USO:通过解缠与奖励学习实现统一的风格与主体驱动生成
本文提出了一种新颖的统一风格-主体生成框架USO,通过解缠学习和奖励机制实现了风格与内容的高效融合。研究团队构建了大规模三元组数据集,开发了双重训练策略(风格对齐与内容解缠),并引入风格奖励学习(SRL)进一步优化性能。实验表明,USO在风格相似性和主体保真度方面均达到SOTA水平,同时发布的USO-Bench是首个联合评估这两项指标的基准。该工作突破了传统方法将风格与主体生成割裂处理的局限,通过跨任务协同解缠实现了性能的相互促进,为多模态生成提供了新思路。
2025-09-09 11:12:36
982
原创 (Arxiv-2025)MOSAIC:通过对应感知的对齐与解缠实现多主体个性化生成
MOSAIC:多主体个性化生成新方法实现突破 字节跳动团队提出的MOSAIC框架在多主体图像生成领域取得重要进展。该方法通过语义对应对齐与特征解缠技术,有效解决了现有方法在多个参考主体场景下的身份混淆与属性泄漏问题。研究团队首先构建了SemAlign-MS数据集,包含120万对带有细粒度语义对应标注的图像对,为模型训练提供了关键监督信号。MOSAIC创新性地引入语义对应注意力损失和多参考解缠损失,前者确保参考主体特征精确映射到目标图像的指定区域,后者通过正交约束减少不同主体间的特征干扰。实验结果表明,该方法
2025-09-08 19:05:39
1043
原创 (ICCV-2021)DOLG:通过局部和全局特征的深度正交融合实现单阶段图像检索
本文提出了一种新颖的单阶段图像检索框架DOLG,通过深度正交融合局部与全局特征生成紧凑图像表示。该方法摒弃了传统两阶段范式,采用端到端方式联合学习:1) 局部分支利用多空洞卷积模拟空间金字塔并引入自注意力机制,选择性提取判别性局部特征;2) 全局分支通过GeM池化获取高级语义;3) 创新性正交融合模块分解出与全局特征正交的局部成分进行互补拼接。实验表明,DOLG在Revisited Oxford和Paris数据集上实现了SOTA性能,验证了单阶段正交融合策略的有效性。该框架仅需图像级标签训练,为图像检索提供
2025-09-02 19:18:51
1650
原创 (TMLR-2024)DINOv2:在无监督条件下学习鲁棒的视觉特征
DINOv2:无监督学习下的鲁棒视觉特征模型 本文提出了DINOv2,一种通过自监督学习获得通用视觉特征的模型。研究团队重新审视了现有判别式自监督方法,并通过技术改进实现了大规模稳定训练。在数据方面,开发了自动化管道从1.42亿张未筛选图像中构建高质量数据集,采用聚类方法平衡概念分布。模型训练了10亿参数的ViT,并蒸馏为更小模型。实验表明,DINOv2在图像和像素级任务上超越了当前最佳弱监督模型(OpenCLIP)的性能,证实了自监督学习能够获得可迁移的冻结特征。该方法无需微调即可在各种视觉任务中表现出色
2025-09-02 17:14:38
1049
原创 (CVPR-2024)VideoBooth:基于扩散的视频生成与图像提示
摘要: 本文提出VideoBooth,一种基于扩散模型的视频生成框架,通过图像提示实现精准的主体外观控制。现有文本到视频方法难以通过文本准确描述复杂视觉特征,而VideoBooth创新性地采用由粗到细的双路径嵌入:1)粗粒度路径通过CLIP图像编码器和MLP层将图像提示映射到文本嵌入空间;2)细粒度路径通过多尺度注意力注入模块,将图像空间细节融入跨帧注意力层,增强生成细节和时间一致性。实验表明,VideoBooth无需微调即可生成高质量定制视频,显著优于文本驱动方法。该框架为图像引导视频生成提供了通用解决方
2025-09-02 11:58:16
1048
原创 (Arxiv-2025)ConceptMaster:基于扩散 Transformer 模型的多概念视频定制,无需测试时微调
文章摘要 本文提出ConceptMaster,一种无需测试时微调的多概念视频定制(MCVC)方法。该方法解决了两个关键挑战:1) 身份解耦问题,通过独立注入解耦的多概念嵌入,有效区分相似概念的属性;2) 高质量数据稀缺问题,设计数据管线收集130万+跨领域视频-实体对。ConceptMaster采用查询Transformer提取视觉嵌入,结合解耦注意力模块保持概念唯一性,并通过独立的多概念注入器增强表征能力。实验表明,该方法在六种概念组合场景下均优于现有方案,显著提升了视频定制的质量和一致性。相关工作包括代
2025-09-02 11:01:45
1208
原创 (Arxiv-2025)VACE:一体化视频创作与编辑
本文提出VACE,一种基于扩散Transformer的统一视频创作与编辑框架,支持多种视频任务(文本生成视频、参考生成视频、视频编辑等)的自由组合。通过设计的视频条件单元(VCU)统一接口和概念解耦策略,VACE能灵活处理多模态输入并保持时空一致性。实验表明该统一模型性能与专用模型相当,同时支持长视频重新渲染等创新应用,为视频内容创作提供了高效解决方案。
2025-09-01 16:10:22
1508
原创 (Arxiv-2025)HunyuanCustom:一种面向多模态驱动的定制化视频生成架构
摘要 腾讯Hunyuan团队提出HunyuanCustom,一种多模态驱动的定制化视频生成框架。该框架在HunyuanVideo基础上,通过引入LLaVA文本-图像融合模块增强多模态理解,并设计图像ID增强模块强化跨帧身份特征。针对音频和视频条件生成,分别提出AudioNet(分层音频-视频对齐)和视频驱动注入模块(基于patchify的特征对齐)。实验表明,HunyuanCustom在单/多主体场景下,身份一致性、真实感和多模态对齐方面优于现有方法,支持虚拟人广告、虚拟试穿等应用场景。代码已开源。 (98
2025-09-01 14:53:15
1465
原创 (CVPR-2025)VideoMage:文本生成视频扩散模型的多主体与动作定制化
摘要 本文提出VideoMage框架,首次实现了文本生成视频中多主体身份与动作模式的联合定制。现有方法仅能单独处理主体定制或动作定制,难以实现多主体的交互式动作控制。VideoMage通过主体LoRA和动作LoRA分别捕捉用户提供的图像和视频中的视觉特征与动作模式,并创新性地采用外观无关的动作学习方法消除视觉干扰。同时,提出时空协同组合机制引导多主体在目标动作下的交互。实验表明,VideoMage能生成连贯、可控的视频,在保持主体身份一致性的同时精确复现复杂交互动作,优于现有方法。该研究为视频内容创作提供了
2025-08-27 11:38:43
1232
原创 (Arxiv-2024)VideoMaker:零样本定制化视频生成,依托于视频扩散模型的内在力量
本文提出VideoMaker框架,利用视频扩散模型(VDM)的内在能力实现零样本定制化视频生成。不同于现有方法依赖额外模型提取和注入主体特征,该方法发现VDM本身已具备这些能力:1)将参考图像直接输入VDM可提取细粒度特征;2)利用VDM的空间自注意力机制实现特征注入。通过双向交互机制和简单学习策略,框架仅需轻量微调即可生成高保真定制视频,在人物和物体生成任务上均优于现有方法。该方法无需额外模块,显著提升了主体一致性和生成多样性。
2025-08-26 16:28:34
678
原创 (CVPR-2025)视频生成中的多主体开放集个性化
本文提出Video Alchemist,一种支持多主体开放集个性化的视频生成模型。该模型基于新型Diffusion Transformer模块构建,通过交叉注意力层融合参考图像和主体级文本提示,可同时处理前景物体和背景个性化,无需测试阶段优化。针对数据收集难题,作者设计自动化流程从视频中提取参考帧并构建增强数据集,缓解过拟合问题。此外,提出MSRVTT-Personalization评估基准,在对象分割级别评估主体保真度。实验表明,该方法在定量和定性评估上均优于现有技术。
2025-08-26 11:13:56
878
原创 (CVPR-2025)通过频率分解实现身份保持的文本到视频生成
本文提出了一种无需调优的身份保持文本到视频生成方法ConsisID,通过频域分解实现高效的身份一致性控制。该方法将人脸特征分解为低频全局特征(轮廓、比例)和高频细节特征(身份标记),分别注入DiT模型的不同位置:低频信号与噪声潜变量拼接以加速收敛,高频信号通过双塔特征提取器与视觉token融合增强感知能力。此外,作者提出分层训练策略(由粗到细训练、动态掩码损失和跨人脸损失)进一步提升模型泛化能力。实验表明,该方法能生成高质量、可编辑且身份一致性良好的视频,为基于DiT的IP2TV任务提供了有效解决方案。相比
2025-08-21 10:53:52
818
原创 (Arxiv-2025)Concat-ID:面向通用身份保持的视频合成
本文提出Concat-ID框架,实现通用身份保持的视频生成。该方法通过VAE提取图像特征,与视频潜变量序列拼接,利用3D自注意力机制自然融合身份信息,无需额外参数。创新性地设计了跨视频配对策略和多阶段训练方案,平衡身份一致性与面部可编辑性。实验表明,Concat-ID在单身份、多身份及多主体场景中均优于现有方法,可应用于虚拟试穿等多样化场景。该方法仅依赖标准视频生成模型架构,具有通用性和可扩展性优势。
2025-08-20 17:44:24
987
原创 (Arxiv-2025)SkyReels-A2:在视频扩散变换器中组合任意内容
本文提出SkyReels-A2框架,实现了基于多参考图像和文本提示的可控视频生成。该框架通过双流结构处理参考图像:语义分支提取全局特征,空间分支保留局部细节。作者构建了"文本-参考-视频"三元组数据集,并设计了A2-Bench评估基准。实验表明,该方法能生成高质量、元素一致的自然视频,性能优于现有闭源模型。SkyReels-A2是首个开源的商用级元素到视频生成模型,为创意应用提供了新工具。
2025-08-20 14:00:43
1627
原创 (Arxiv-2025)OPENS2V-NEXUS:一个面向主体到视频生成的详细基准与百万规模数据集
本文摘要: OPENS2V-NEXUS是北京大学提出的面向主体到视频(S2V)生成任务的首个综合性基准与百万规模数据集。该工作包含OpenS2V-Eval基准和OpenS2V-5M数据集两部分。OpenS2V-Eval定义了7个S2V生成类别(如单人脸/身体/实体到视频等),包含180个测试样本,并提出了三个创新评估指标:NexusScore(主体一致性)、NaturalScore(自然性)和GmeScore(文本相关性),解决了现有基准在细粒度评估上的不足。OpenS2V-5M数据集包含535万高质量主体
2025-08-18 15:33:56
966
概率的公式推导,这步不知道怎么推过去的
2021-07-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅