顾道长生'-CSDN博客

原创更改pip源至清华、阿里、中科大镜像（临时使用）

可以在使用pip的时候加参数清华源：-i https://pypi.tuna.tsinghua.edu.cn/simple阿里源：-i https://mirrors.aliyun.com/pypi/simple中科大源：-i https://pypi.mirrors.ustc.edu.cn/simple/ ...

2019-10-05 16:29:07 13585

原创 (Arxiv-2025)Lynx：迈向高保真个性化视频生成

摘要：字节跳动提出Lynx模型，实现了从单张图像生成高保真个性化视频。基于扩散Transformer（DiT），Lynx通过两个轻量适配器（ID-adapter和Ref-adapter）保持身份一致性：ID-adapter将人脸特征转换为身份token，Ref-adapter通过跨注意力注入VAE细节特征。在40个主体和20个提示的测试集上（共800个案例），Lynx在身份相似度、提示跟随和视频质量上均优于现有方法，同时支持多样光照、姿态和场景变化。训练采用时空帧打包和渐进策略，平衡了效率与生成效果。

2025-09-26 16:36:29 1029

原创 (Arxiv-2025)OmniInsert：无遮罩视频插入任意参考通过扩散 Transformer 模型

摘要本文提出OmniInsert，一种基于扩散Transformer的无遮罩视频插入方法，能够将任意参考主体无缝融入源视频。针对该任务的数据稀缺、主体-场景平衡和插入协调三大挑战，作者提出：(1) InsertPipe数据管道，通过RealCapture、SynthGen和SimInteract三种方式自动构建多样化训练数据；(2) OmniInsert框架，包含条件特定特征注入机制(CFI)实现多源条件区分性融合，配合渐进式训练策略(PT)和主体聚焦损失(SL)优化主体一致性；(3) 插入式偏好优化(I

2025-09-24 16:18:46 1371

原创 (Arxiv-2025)重构对齐提升了统一多模态模型的性能

本文提出重构对齐(RecA),一种高效的后训练方法,用于提升统一多模态模型(UMM)的性能。传统UMM训练依赖稀疏的图文对,导致视觉细节丢失。RecA利用视觉理解编码器的嵌入作为密集"文本提示",通过自监督重构损失重新对齐理解与生成模块。实验表明,仅需27个GPU小时的后训练,RecA就能显著提升图像生成(GenEval从0.73→0.90)和编辑(ImgEdit从3.38→3.75)性能,超越更大规模的模型。该方法通用性强,适用于自回归、掩码自回归和基于扩散的不同UMM架构。核心创新在

2025-09-11 17:30:00 2164

原创 (ICLR-2025)SANA：高效高分辨率图像合成的线性扩散 Transformer

SANA：高效高分辨率图像生成的线性扩散Transformer NVIDIA提出的SANA框架在ICLR 2025上展示了一种高效生成4K分辨率图像的新方法。该框架通过四大创新设计显著提升了性能：1) 采用32倍压缩的深度自动编码器，大幅减少潜在token数量；2) 使用线性注意力机制替代传统注意力，将复杂度从O(N²)降至O(N)；3) 引入Gemma LLM作为文本编码器，增强指令跟随能力；4) 开发Flow-DPM-Solver减少采样步数。实验表明，仅0.6B参数的SANA模型在性能上媲美12B参数

2025-09-10 16:53:30 950

原创 (ICLR-2025)深度压缩自动编码器用于高效高分辨率扩散模型

本文摘要： MIT研究人员提出深度压缩自动编码器(DC-AE)，通过两种创新技术显著提升高分辨率扩散模型的效率：(1)残差自动编码技术，通过空间到通道变换学习残差特征，解决高压缩比下的优化难题；(2)解耦高分辨率适应策略，采用三阶段训练方法减轻泛化损失。实验表明，DC-AE将空间压缩比提升至128倍仍保持重建质量，在ImageNet 512×512任务中，为UViT-H模型带来19.1倍推理加速和17.9倍训练加速，同时FID指标优于当前主流的SD-VAE-f8自动编码器。该工作为高分辨率图像生成提供了一种

2025-09-10 15:32:22 1058

原创 (Arxiv-2025)USO：通过解缠与奖励学习实现统一的风格与主体驱动生成

本文提出了一种新颖的统一风格-主体生成框架USO，通过解缠学习和奖励机制实现了风格与内容的高效融合。研究团队构建了大规模三元组数据集，开发了双重训练策略（风格对齐与内容解缠），并引入风格奖励学习（SRL）进一步优化性能。实验表明，USO在风格相似性和主体保真度方面均达到SOTA水平，同时发布的USO-Bench是首个联合评估这两项指标的基准。该工作突破了传统方法将风格与主体生成割裂处理的局限，通过跨任务协同解缠实现了性能的相互促进，为多模态生成提供了新思路。

2025-09-09 11:12:36 789

原创 (Arxiv-2025)MOSAIC：通过对应感知的对齐与解缠实现多主体个性化生成

MOSAIC：多主体个性化生成新方法实现突破字节跳动团队提出的MOSAIC框架在多主体图像生成领域取得重要进展。该方法通过语义对应对齐与特征解缠技术，有效解决了现有方法在多个参考主体场景下的身份混淆与属性泄漏问题。研究团队首先构建了SemAlign-MS数据集，包含120万对带有细粒度语义对应标注的图像对，为模型训练提供了关键监督信号。MOSAIC创新性地引入语义对应注意力损失和多参考解缠损失，前者确保参考主体特征精确映射到目标图像的指定区域，后者通过正交约束减少不同主体间的特征干扰。实验结果表明，该方法

2025-09-08 19:05:39 833

原创 (ICCV-2021)DOLG：通过局部和全局特征的深度正交融合实现单阶段图像检索

本文提出了一种新颖的单阶段图像检索框架DOLG，通过深度正交融合局部与全局特征生成紧凑图像表示。该方法摒弃了传统两阶段范式，采用端到端方式联合学习：1) 局部分支利用多空洞卷积模拟空间金字塔并引入自注意力机制，选择性提取判别性局部特征；2) 全局分支通过GeM池化获取高级语义；3) 创新性正交融合模块分解出与全局特征正交的局部成分进行互补拼接。实验表明，DOLG在Revisited Oxford和Paris数据集上实现了SOTA性能，验证了单阶段正交融合策略的有效性。该框架仅需图像级标签训练，为图像检索提供

2025-09-02 19:18:51 1377

原创 (TMLR-2024)DINOv2：在无监督条件下学习鲁棒的视觉特征

DINOv2：无监督学习下的鲁棒视觉特征模型本文提出了DINOv2，一种通过自监督学习获得通用视觉特征的模型。研究团队重新审视了现有判别式自监督方法，并通过技术改进实现了大规模稳定训练。在数据方面，开发了自动化管道从1.42亿张未筛选图像中构建高质量数据集，采用聚类方法平衡概念分布。模型训练了10亿参数的ViT，并蒸馏为更小模型。实验表明，DINOv2在图像和像素级任务上超越了当前最佳弱监督模型(OpenCLIP)的性能，证实了自监督学习能够获得可迁移的冻结特征。该方法无需微调即可在各种视觉任务中表现出色

2025-09-02 17:14:38 763

原创 (CVPR-2024)VideoBooth：基于扩散的视频生成与图像提示

摘要：本文提出VideoBooth，一种基于扩散模型的视频生成框架，通过图像提示实现精准的主体外观控制。现有文本到视频方法难以通过文本准确描述复杂视觉特征，而VideoBooth创新性地采用由粗到细的双路径嵌入：1）粗粒度路径通过CLIP图像编码器和MLP层将图像提示映射到文本嵌入空间；2）细粒度路径通过多尺度注意力注入模块，将图像空间细节融入跨帧注意力层，增强生成细节和时间一致性。实验表明，VideoBooth无需微调即可生成高质量定制视频，显著优于文本驱动方法。该框架为图像引导视频生成提供了通用解决方

2025-09-02 11:58:16 894

原创 (Arxiv-2025)ConceptMaster：基于扩散 Transformer 模型的多概念视频定制，无需测试时微调

文章摘要本文提出ConceptMaster，一种无需测试时微调的多概念视频定制(MCVC)方法。该方法解决了两个关键挑战：1) 身份解耦问题，通过独立注入解耦的多概念嵌入，有效区分相似概念的属性；2) 高质量数据稀缺问题，设计数据管线收集130万+跨领域视频-实体对。ConceptMaster采用查询Transformer提取视觉嵌入，结合解耦注意力模块保持概念唯一性，并通过独立的多概念注入器增强表征能力。实验表明，该方法在六种概念组合场景下均优于现有方案，显著提升了视频定制的质量和一致性。相关工作包括代

2025-09-02 11:01:45 1029

原创 (Arxiv-2025)VACE：一体化视频创作与编辑

本文提出VACE，一种基于扩散Transformer的统一视频创作与编辑框架，支持多种视频任务（文本生成视频、参考生成视频、视频编辑等）的自由组合。通过设计的视频条件单元(VCU)统一接口和概念解耦策略，VACE能灵活处理多模态输入并保持时空一致性。实验表明该统一模型性能与专用模型相当，同时支持长视频重新渲染等创新应用，为视频内容创作提供了高效解决方案。

2025-09-01 16:10:22 1113

原创 (Arxiv-2025)HunyuanCustom：一种面向多模态驱动的定制化视频生成架构

摘要腾讯Hunyuan团队提出HunyuanCustom，一种多模态驱动的定制化视频生成框架。该框架在HunyuanVideo基础上，通过引入LLaVA文本-图像融合模块增强多模态理解，并设计图像ID增强模块强化跨帧身份特征。针对音频和视频条件生成，分别提出AudioNet（分层音频-视频对齐）和视频驱动注入模块（基于patchify的特征对齐）。实验表明，HunyuanCustom在单/多主体场景下，身份一致性、真实感和多模态对齐方面优于现有方法，支持虚拟人广告、虚拟试穿等应用场景。代码已开源。（98

2025-09-01 14:53:15 1186

原创 (CVPR-2025)VideoMage：文本生成视频扩散模型的多主体与动作定制化

摘要本文提出VideoMage框架，首次实现了文本生成视频中多主体身份与动作模式的联合定制。现有方法仅能单独处理主体定制或动作定制，难以实现多主体的交互式动作控制。VideoMage通过主体LoRA和动作LoRA分别捕捉用户提供的图像和视频中的视觉特征与动作模式，并创新性地采用外观无关的动作学习方法消除视觉干扰。同时，提出时空协同组合机制引导多主体在目标动作下的交互。实验表明，VideoMage能生成连贯、可控的视频，在保持主体身份一致性的同时精确复现复杂交互动作，优于现有方法。该研究为视频内容创作提供了

2025-08-27 11:38:43 942

原创 (Arxiv-2024)VideoMaker：零样本定制化视频生成，依托于视频扩散模型的内在力量

本文提出VideoMaker框架，利用视频扩散模型(VDM)的内在能力实现零样本定制化视频生成。不同于现有方法依赖额外模型提取和注入主体特征，该方法发现VDM本身已具备这些能力：1)将参考图像直接输入VDM可提取细粒度特征；2)利用VDM的空间自注意力机制实现特征注入。通过双向交互机制和简单学习策略，框架仅需轻量微调即可生成高保真定制视频，在人物和物体生成任务上均优于现有方法。该方法无需额外模块，显著提升了主体一致性和生成多样性。

2025-08-26 16:28:34 545

原创 (CVPR-2025)视频生成中的多主体开放集个性化

本文提出Video Alchemist，一种支持多主体开放集个性化的视频生成模型。该模型基于新型Diffusion Transformer模块构建，通过交叉注意力层融合参考图像和主体级文本提示，可同时处理前景物体和背景个性化，无需测试阶段优化。针对数据收集难题，作者设计自动化流程从视频中提取参考帧并构建增强数据集，缓解过拟合问题。此外，提出MSRVTT-Personalization评估基准，在对象分割级别评估主体保真度。实验表明，该方法在定量和定性评估上均优于现有技术。

2025-08-26 11:13:56 614

原创 (CVPR-2025)通过频率分解实现身份保持的文本到视频生成

本文提出了一种无需调优的身份保持文本到视频生成方法ConsisID，通过频域分解实现高效的身份一致性控制。该方法将人脸特征分解为低频全局特征（轮廓、比例）和高频细节特征（身份标记），分别注入DiT模型的不同位置：低频信号与噪声潜变量拼接以加速收敛，高频信号通过双塔特征提取器与视觉token融合增强感知能力。此外，作者提出分层训练策略（由粗到细训练、动态掩码损失和跨人脸损失）进一步提升模型泛化能力。实验表明，该方法能生成高质量、可编辑且身份一致性良好的视频，为基于DiT的IP2TV任务提供了有效解决方案。相比

2025-08-21 10:53:52 519

原创 (Arxiv-2025)Concat-ID：面向通用身份保持的视频合成

本文提出Concat-ID框架，实现通用身份保持的视频生成。该方法通过VAE提取图像特征，与视频潜变量序列拼接，利用3D自注意力机制自然融合身份信息，无需额外参数。创新性地设计了跨视频配对策略和多阶段训练方案，平衡身份一致性与面部可编辑性。实验表明，Concat-ID在单身份、多身份及多主体场景中均优于现有方法，可应用于虚拟试穿等多样化场景。该方法仅依赖标准视频生成模型架构，具有通用性和可扩展性优势。

2025-08-20 17:44:24 807

原创 (Arxiv-2025)SkyReels-A2：在视频扩散变换器中组合任意内容

本文提出SkyReels-A2框架，实现了基于多参考图像和文本提示的可控视频生成。该框架通过双流结构处理参考图像：语义分支提取全局特征，空间分支保留局部细节。作者构建了"文本-参考-视频"三元组数据集，并设计了A2-Bench评估基准。实验表明，该方法能生成高质量、元素一致的自然视频，性能优于现有闭源模型。SkyReels-A2是首个开源的商用级元素到视频生成模型，为创意应用提供了新工具。

2025-08-20 14:00:43 1371

原创 (Arxiv-2025)OPENS2V-NEXUS：一个面向主体到视频生成的详细基准与百万规模数据集

本文摘要： OPENS2V-NEXUS是北京大学提出的面向主体到视频(S2V)生成任务的首个综合性基准与百万规模数据集。该工作包含OpenS2V-Eval基准和OpenS2V-5M数据集两部分。OpenS2V-Eval定义了7个S2V生成类别（如单人脸/身体/实体到视频等），包含180个测试样本，并提出了三个创新评估指标：NexusScore（主体一致性）、NaturalScore（自然性）和GmeScore（文本相关性），解决了现有基准在细粒度评估上的不足。OpenS2V-5M数据集包含535万高质量主体

2025-08-18 15:33:56 558

原创 (Arxiv-2025)Stand-In：一种轻量化、即插即用的身份控制方法用于视频生成

本文提出Stand-In，一种轻量化的即插即用身份控制框架，用于视频生成中的身份保持。该方法通过引入条件图像分支和受限自注意力机制，仅需训练约1%的额外参数（2000对数据）即可实现高质量身份保持。创新性地利用预训练VAE将条件图像映射到视频潜空间，通过3D RoPE位置编码区分图像和视频token。实验表明，该方法在面部相似度和自然度上均优于全参数训练方法，并能无缝集成到主体驱动生成、风格化、人脸替换等任务中，展现出优异的泛化能力和兼容性。

2025-08-15 18:25:34 839

原创 (Arxiv-2025)Phantom：通过跨模态对齐实现主体一致性视频生成

本文提出Phantom框架，专注于主体一致性视频生成(Subject-to-Video)任务。通过构建文本-图像-视频三元组数据，解决了传统方法中图像内容泄漏和多主体混淆问题。Phantom采用动态注入机制，在MMDiT架构基础上重新设计跨模态对齐模型，支持单主体和多主体参考条件下的高质量视频生成。实验表明，该方法在性能上超越现有商业解决方案，特别在人体生成任务中展现出显著优势。Phantom的统一框架为电影、广告等应用场景提供了实用的视频生成解决方案。

2025-08-11 11:34:02 1555

原创 (Arxiv-2025)Phantom-Data：迈向通用的主体一致性视频生成数据集

本文提出Phantom-Data，首个通用跨对主体一致性视频生成数据集，旨在解决现有模型存在的"复制-粘贴"问题。该数据集包含约100万组身份一致的图像-视频样本对，通过三阶段流程构建：通用主体检测、大规模跨上下文检索和先验引导的身份验证。实验表明，使用Phantom-Data训练能显著提升模型对文本提示的响应能力和生成质量，同时保持主体一致性。相比现有局限于特定领域的数据集，Phantom-Data覆盖广泛主体类别，为通用主体到视频生成提供了高质量训练基础。

2025-08-11 11:00:41 1096

原创 (Arxiv-2025) CINEMA：通过基于MLLM的引导实现多主体一致性视频生成

字节跳动提出的CINEMA框架通过多模态大语言模型（MLLM）实现多主体一致性视频生成，解决了现有方法在主体关系建模和视觉一致性方面的不足。该框架无需显式绑定主体图像与文本实体，利用MLLM解析主体间关系，显著提升了生成视频的连贯性。CINEMA采用模型无关设计，通过AlignerNet模块将MLLM输出对齐到文本特征，并注入参考图像的VAE特征保持主体一致性。实验表明，该方法在主体一致性和场景协调性方面优于现有技术，为个性化视频创作提供了新思路。

2025-08-08 15:21:46 1295

原创 (Arxiv-2025)OVIS-U1技术报告

Ovis-U1技术报告摘要：阿里巴巴团队发布的Ovis-U1是一个30亿参数的统一多模态模型，集理解、生成和编辑能力于一体。该模型基于扩散Transformer架构，引入双向token精炼器增强模态交互，采用统一训练策略协同提升多任务性能。在OpenCompass等基准测试中，Ovis-U1超越现有先进模型，在文本生成图像任务和图像编辑任务上表现优异。模型创新包括：1) 多样化多模态训练数据；2) 改进的视觉解码器架构；3) 统一训练框架促进能力协同。Ovis-U1的开源将推动多模态AI发展，为构建通用智能

2025-07-23 21:18:34 1353

原创 (Arxiv-2025)OmniGen2：通向先进多模态生成的探索

摘要本研究提出OmniGen2，一种开源多模态生成模型，通过独立解码路径处理文本和图像任务，保留原始文本生成能力的同时提升图像生成质量。模型采用解耦架构，将VAE特征专用于扩散解码器，避免影响多模态理解性能。研究构建了面向图像编辑和上下文生成任务的数据流程，并引入反思机制增强生成能力。尽管参数规模较小，OmniGen2在文本生成图像、图像编辑等任务上表现优异。针对评估不足的上下文生成任务，提出了OmniContext基准测试，结果显示OmniGen2在开源模型中达到最优一致性表现。研究开源了模型、训练代码

2025-07-23 19:28:27 1371

原创 (Arxiv-2025)UniWorld-V1：用于统一视觉理解与生成的高分辨率语义编码器

本文提出UniWorld-V1，一种基于高分辨率语义编码器的统一视觉理解与生成框架。通过实验分析GPT-4o-Image的视觉特征提取机制，研究者发现其可能采用语义编码器而非传统VAE。UniWorld-V1结合多模态大语言模型和对比语义编码器，在仅270万训练数据下，实现了图像理解、生成、操控和感知等多种任务的卓越性能。模型采用两阶段训练策略：语义对齐预训练和一致性生成微调，并创新性地使用ZeRO-3 EMA优化技术解决大模型训练难题。实验表明，该模型在ImgEdit-Bench等基准测试中超越专用编辑模

2025-07-23 18:21:57 915

原创 (Arxiv-2025)利用 MetaQueries 实现模态间迁移

摘要 Meta研究团队提出MetaQueries方法，实现多模态大语言模型(MLLM)与扩散模型之间的高效知识迁移。该方法通过一组可学习查询向量，将冻结的MLLM潜在表示连接至扩散解码器，在保持MLLM原有理解能力的同时赋予其图像生成能力。不同于传统需要微调主干的方案，MetaQueries仅需标准图文对数据和扩散目标即可训练，且支持指令微调实现高级应用。实验表明，该方法在多个基准测试中达到SOTA水平，同时有效保留了MLLM的推理和知识迁移能力。这项研究为统一多模态建模提供了更简洁高效的实现路径。

2025-07-23 14:43:59 684

原创 (Arxiv-2025)HiDream-I1：一种高效图像生成基础模型，采用稀疏扩散Transformer

HiDream-I1：高效稀疏扩散Transformer图像生成基础模型智象未来提出的HiDream-I1是一种新型开源图像生成基础模型，采用创新的稀疏扩散Transformer架构（Sparse DiT）。该模型通过双流解耦设计和动态专家混合(MoE)结构，分别处理图像和文本token后实现高效多模态交互，在170亿参数规模下实现了秒级高质量图像生成。HiDream-I1提供三个优化版本（Full/Dev/Fast），支持50+至14步的扩散采样，满足不同场景需求。模型创新性地将GAN融入扩散蒸馏过程，

2025-07-22 19:26:04 1809

原创 (Arxiv-2025)Step1X-Edit：通用图像编辑的实用框架

本文提出Step1X-Edit框架，旨在缩小开源与闭源图像编辑模型的性能差距。通过构建包含11类编辑任务的大规模高质量数据集（生成100万+三元组），并引入多模态大语言模型与扩散模型结合的新架构，该模型在GEdit-Bench基准测试中显著超越现有开源方案，接近GPT-4o等闭源系统性能。关键创新包括可扩展的数据生成流水线、统一的条件编码方法及基于真实场景的评估基准，为通用图像编辑研究提供了新方向。

2025-07-22 11:38:36 1157

原创 (CVPR-2025)DiC：重新思考扩散模型中的Conv3x3设计

文章摘要本文提出DiC（Diffusion CNN），一种基于纯3x3卷积的扩散模型架构，旨在替代当前主流的Transformer架构。研究发现，采用编码器-解码器沙漏结构比各向同性架构更有效，并进一步引入稀疏跳跃连接提升可扩展性。针对条件建模，提出了阶段特定嵌入、中间块条件注入和条件门控等改进。实验表明，DiC在性能上超越现有扩散Transformer，同时保持显著的速度优势。该方法为扩散模型提供了一种计算高效的替代方案，在保持生成质量的同时极大提升了推理效率。

2025-07-18 17:40:15 1143

原创 (Arxiv-2025)统一多模态理解与生成模型：进展、挑战与机遇

本文综述了统一多模态理解与生成模型的最新进展，系统分析了三大架构范式（基于扩散、自回归及混合方法），并探讨了该领域的关键挑战与未来机遇。文章首先梳理了多模态理解模型和文本生成图像模型各自的发展现状，指出自回归架构在理解任务中的主导地位与扩散模型在生成任务中的优势。随后详细对比了现有统一模型的创新设计，包括图像标记化策略和跨模态注意力机制等核心技术。此外，作者还整理了专用数据集与评测基准，为后续研究提供资源支持。最后，文章讨论了分词策略、数据瓶颈等核心挑战，强调该领域仍处于快速发展阶段，具有广阔的研究前景。

2025-07-08 16:08:34 1283

原创 (CSUR-2024) 视频扩散模型综述

本文综述了视频扩散模型的最新研究进展，系统梳理了该领域在视频生成、编辑和理解任务中的应用。随着扩散模型在AIGC领域的崛起，其在视频处理中展现出超越传统GAN和Transformer方法的潜力。文章首先介绍了扩散模型的三种基础框架（DDPM、SGM、Score SDE），然后重点分析了视频生成（如文本到视频生成）、视频编辑和视频理解三大方向的研究现状，包括代表性方法、数据集和评估指标。作者指出，尽管视频扩散模型发展迅速，但目前仍缺乏系统性综述，本文填补了这一空白，并讨论了当前挑战与未来趋势，为研究者提供了全

2025-07-07 11:28:50 1440

原创 (Arxiv-2025)径向注意力：用于长视频生成的 $\mathcal{O}(n \log n)$ 稀疏注意力与能量衰减机制

本文提出了一种名为径向注意力的新型稀疏注意力机制，用于解决长视频生成中的计算效率问题。该机制基于观察到的时空能量衰减现象（即注意力分数随token间时空距离增大而减小），设计了一种计算复杂度为O(n log n)的静态稀疏注意力掩码。每个token仅关注空间邻近token，且注意力窗口随时间距离指数收缩。实验表明，该方法在保持视频质量的同时，相比标准稠密注意力可提升推理速度最高达3.7倍，并减少4.4倍的微调成本。该方法兼容现有预训练模型，通过轻量级LoRA微调即可扩展至更长视频生成。

2025-07-07 11:27:42 736

原创 (Arxiv-2025)径向注意力：用于长视频生成的 $\mathcal{O}(n \log n)$ 稀疏注意力与能量衰减机制

本文提出了一种名为径向注意力的新型稀疏注意力机制，用于解决长视频生成中的计算效率问题。该机制基于观察到的时空能量衰减现象（即注意力分数随token间时空距离增大而减小），设计了一种计算复杂度为O(n log n)的静态稀疏注意力掩码。每个token仅关注空间邻近token，且注意力窗口随时间距离指数收缩。实验表明，该方法在保持视频质量的同时，相比标准稠密注意力可提升推理速度最高达3.7倍，并减少4.4倍的微调成本。该方法兼容现有预训练模型，通过轻量级LoRA微调即可扩展至更长视频生成。

2025-07-03 17:13:40 1801

原创 (Arxiv-2025)通过动态 token 剔除实现无需训练的高效视频生成

尽管视频扩散 Transformer（DiT）模型在生成质量方面表现出色，但其实际部署受到大量计算需求的严重限制。这种低效性主要源于两个关键挑战：一是自注意力机制在 token 长度上的二次复杂度，二是扩散模型本身的多步生成特性。为了解决这些问题，我们提出了 Jenga，这是一种新颖的推理流程，结合了动态注意力剔除与渐进式分辨率生成策略。我们的方法基于两个关键洞察：（1）在扩散的早期阶段，不需要高分辨率的潜在变量；（2）在后期阶段，不需要密集的注意力机制。

2025-07-03 11:07:56 1125

原创 (Arxiv-2024)自回归模型优于扩散：Llama用于可扩展的图像生成

摘要香港大学提出的LlamaGen模型系列将大型语言模型的"下一个token预测"范式成功应用于图像生成，证明了纯粹自回归模型在没有视觉信号归纳偏置的情况下也能实现SOTA性能。该研究重新审视了图像标记器设计、模型可扩展性和训练数据质量等关键因素。主要贡献包括：(1)下采样比16的图像标记器，在ImageNet上取得0.94 rFID和97%码本使用率；(2)111M-3.1B参数的类条件模型在ImageNet 256×256上FID达2.18，超越LDM、DiT等扩散模型；(3)7

2025-07-02 16:11:48 1334

原创 (Arxiv-2025)为统一的多模态理解与生成协调视觉表示

摘要：本文提出Harmon框架，通过共享的遮挡自回归（MAR）编码器统一多模态理解与生成任务。现有方法使用VQ或VAE编码器时，因侧重图像重建而忽视语义，导致理解性能受限。研究发现MAR编码器通过遮挡建模预训练能同时捕捉细粒度特征和高层语义，在特征可视化和线性探测中表现优异。Harmon采用三阶段训练流程，逐步优化共享编码器在生成与理解任务中的表现。实验表明，Harmon在GenEval、MJHQ30K等生成基准上达到SOTA，在理解任务上与专用语义编码器方法（如Janus）相当，验证了统一表示的协同效应

2025-06-30 16:02:24 1451

国际象棋c++小游戏，qt开发

设计模式代码（包含uml类图、和实验报告）

Linux实验报告一.docx

pytorch.html

概率的公式推导，这步不知道怎么推过去的