
论文阅读
文章平均质量分 85
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
字节DreamFit 虚拟试衣:任意服装随心试,多风格人体模特一键匹配生成,轻量级即插即用!
字节跳动推出的DreamFit是一款创新的虚拟试衣框架,它结合了轻量级的任何服装编码器,专为以服装为中心的人类生成设计。DreamFit的三大优势包括:轻量训练,仅需8340万可训练参数;能够试穿任意风格的服装;以及即插即用的特性,兼容各种社区插件。该框架通过自适应注意力和LoRA模块显著降低模型复杂度,并利用预训练的大型多模态模型(LMM)提升生成质量。DreamFit在公开和内部基准测试中表现出色,超越了现有方法,展示了其在以服装为中心的人体生成领域的领先优势。相关资源包括论文、代码、模型和工作流,均可原创 2025-05-18 21:09:33 · 605 阅读 · 0 评论 -
谷歌提出图像灯光编辑方法LightLab,只要一张图+AI,光影效果全搞定!
谷歌推出的LightLab是一种基于扩散模型的技术,旨在实现对单张图像中光源的细粒度和参数化控制。该方法能够调整可见光源的强度和颜色、环境光照的强度,并可在场景中插入虚拟光源。LightLab通过显式的参数化控制,生成物理上合理的阴影和环境光效应,从而提供了一种高质量的光照编辑解决方案。该技术的主要贡献在于有效地微调和调节扩散模型,使用户能够进行复杂且连续的照明编辑。通过结合真实和合成数据,LightLab在物理合理性和用户满意度方面均优于先前的研究成果,展示了基于物理的图像编辑的潜力。原创 2025-05-18 21:08:02 · 489 阅读 · 0 评论 -
告别“纸片人“试衣!阿里&浙大提出3DV-TON,用3D几何骨架+动态纹理场,让虚拟模特“活“出真实衣褶!
视频试穿将视频中的服装替换为目标服装。现有方法在处理复杂的服装图案和多样的身体姿势时难以生成高质量且时间一致的结果。论文提出了3DV-TON,这是一个基于扩散的新型框架,用于生成高保真度和时间一致的视频试穿结果。提出的方法采用生成的可动画的纹理 3D 网格作为明确的帧级指导,从而缓解模型在运动连贯性扩展时过分关注外观保真度的问题。这是通过在整个视频序列中直接参考一致的服装纹理运动来实现的。所提出的方法具有用于生成动态 3D 指导的自适应流程:选择初始 2D 图像试穿的关键帧,原创 2025-05-07 22:42:54 · 467 阅读 · 0 评论 -
AI赋能艺术修图新纪元!PhotoDoodle,少数案例解锁照片秒变艺术大作!“
PhotoDoodle:从少数几个例子中学习艺术图像编辑PhotoDoodle是一种新颖的图像编辑框架,旨在通过让艺术家将装饰元素叠加到照片上来促进照片涂鸦。照片涂鸦具有挑战性,因为插入的元素必须与背景无缝集成,需要逼真的混合、透视对齐和上下文连贯性。此外,必须保留背景而不失真,并且必须从有限的训练数据中有效捕捉艺术家的独特风格。以前的方法主要侧重于全局风格转移或区域修复,无法满足这些要求。PhotoDoodle 采用两阶段训练策略。首先使用大规模数据训练通用图像编辑模型 OmniEditor。原创 2025-03-09 12:02:42 · 419 阅读 · 0 评论 -
南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成。
论文出了一种无需训练的方法1Prompt1Story,通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。此外,它还支持多字符生成、ControlNet 引导生成和个性化生成逼真的图像。原创 2025-03-09 12:00:55 · 779 阅读 · 0 评论 -
魔发奇缘,3D发型生成新突破!TANGLED:利用任意样式和视点的图像生成 3D 发束
发型错综复杂,具有各种几何形状、纹理和结构,具有重要的文化意义。现有的文本或图像引导生成方法无法处理丰富而复杂的各种发型。我们提出了 TANGLED,这是一种用于生成 3D 发束的新方法,可适应不同风格、视点和输入视图数量的各种图像输入。TANGLED 采用三步流程: 首先,我们的 MultiHair 数据集提供了 457 种不同的发型,并标注了 74 种属性,强调复杂且具有重要文化意义的发型,以提高模型的泛化能力。原创 2025-03-03 21:06:20 · 748 阅读 · 0 评论 -
CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。
CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性:在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机,以及对渲染帧进行直观的布局控制。CineMaster分两个阶段运行:第一阶段:设计了一个交互式工作流程,允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。第二阶段:这些控制信号(包括渲染的深度图、相机轨迹和对象类别标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。原创 2025-02-26 21:59:20 · 519 阅读 · 0 评论 -
ICIR2025 | CubeDiff:重新利用基于扩散的图像模型来生成360°全景图
论文介绍了一种从文本提示或图像生成 360° 全景图的新方法。该方法利用 3D 生成方面的最新进展,采用多视图扩散模型来联合合成立方体贴图的六个面。与以前依赖于处理等距矩形投影或自回归生成的方法不同,提出的方法将每个面视为标准透视图像,简化了生成过程并支持使用现有的多视图扩散模型。论文证明这些模型可以适应生成高质量的立方体贴图,而无需对应感知注意层。该模型允许细粒度的文本控制,生成高分辨率全景图并远远超出其训练集,同时在质量和数量上都实现了最先进的结果。原创 2025-02-14 22:21:50 · 446 阅读 · 0 评论 -
IC-Portrait:打造逼真个性化肖像的新纪元!
IC-Portrait框架为个性化肖像生成提供了新的解决方案,通过光照感知拼接和视图一致性适应两大设计,实现了几乎无损的身份特征保留和光照不变性的肖像生成。这一创新性的框架不仅解决了个性化肖像生成中的诸多难题,还为数字内容创作、虚拟形象等领域带来了新的可能。原创 2025-02-14 22:21:13 · 554 阅读 · 0 评论 -
MoMask:可将文本描述作为输入并生成相应的高质量人体运动动作
人体运动生成是生成式计算机视觉领域的一个重要研究方向,广泛应用于电影制作、视频游戏、AR/VR 和人机交互。当前的方法主要利用基于扩散的生成模型或自回归模型进行文本到运动的生成。然而,它们面临两个重大挑战:生成过程耗时,对游戏、机器人操控和其他在线设置等实时应用构成重大障碍。这些方法通常学习由文本引导的相对运动表示,因此很难生成具有精确关节级控制的运动序列。这些挑战严重阻碍了人体运动生成技术的进步,并限制了其在现实世界中的应用。为了解决这一问题,论文提出了一个由两个关键组件组成的简单而有效的架构。原创 2025-02-09 21:31:19 · 596 阅读 · 0 评论 -
港中文&腾讯提出可穿戴3D资产生成方法BAG,可自动生成服装和配饰等3D资产如,并适应特定的人体模型。
虽然最近的进展在一般3D形状生成模型方面取得了显着进展,但利用这些方法自动生成可穿戴3D资产的挑战仍未被探索。为此,我们提出了BAG,一种与身体对齐的资产生成方法,用于输出3D可穿戴资产,可以在给定的3D人体上自动穿戴。这是通过使用人体形状和姿态信息来控制3D生成过程来实现的。具体而言,我们首先建立了一个通用的单图像到一致的多视图图像扩散模型,并在大型Objaverse数据集上进行训练,以实现多样性和泛化性。然后,我们训练一个控制网来引导多视图生成器生成与身体对齐的多视图图像。原创 2025-02-09 21:30:43 · 1093 阅读 · 0 评论 -
StochSync:可在任意空间中生成360°全景图和3D网格纹理
我们提出了一种名为 StochSync 的方法,用于生成任意空间中的图像——例如 360°全景图或 3D 表面上的纹理——该方法利用了一个预训练的图像扩散模型。主要的挑战在于弥合扩散模型理解的二维图像与图像生成的目标空间之间的差距。与那些在缺乏强条件或缺乏精细细节的情况下难以取得成效的方法不同,StochSync 结合了扩散同步和得分蒸馏采样的优势,即使在条件较弱的情况下也能有效运行。实验表明 StochSync 比之前的基于微调的方法表现更出色,尤其是在 360°全景图生成方面。原创 2025-02-09 21:28:58 · 635 阅读 · 0 评论 -
耶鲁大学和Adobe提出SynthLight:智能重塑人像照明,打造完美光影!
SynthLight 是一种用于人像重新照明的扩散模型。该方法将图像重新照明视为重新渲染问题,其中像素会根据环境照明条件的变化而变化。使用基于物理的渲染引擎,我们合成一个数据集,以在不同照明下使用 3D 头部资产模拟这种照明条件下的转换。我们提出了两种训练和推理策略来弥合合成图像域和真实图像域之间的差距:利用没有照明标签的真实人物肖像的多任务训练;基于无分类器指导的推理时间扩散采样程序,利用输入肖像更好地保留细节。原创 2025-02-09 21:26:20 · 561 阅读 · 0 评论 -
革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元
虚拟试穿 (VTON) 技术因其通过实现图像和视频的逼真服装可视化来改变在线零售的潜力而备受关注。然而,大多数现有方法都难以在图像和视频试穿任务中获得高质量的结果,尤其是在长视频场景中。CatV2TON是一种简单有效的基于视觉的虚拟试穿 (V2TON) 方法,它使用单个扩散变压器模型支持图像和视频试穿任务。通过在时间上连接服装和人员输入并在混合图像和视频数据集上进行训练,CatV2TON在静态和动态设置中实现了强大的试穿性能。原创 2025-02-09 21:25:20 · 987 阅读 · 0 评论 -
Stability AI 联合 UIUC 提出单视图 3D 重建方法SPAR3D,可0.7秒完成重建并支持交互式用户编辑。
我们研究单图像 3D 物体重建问题。最近的研究分为两个方向:基于回归的建模和生成建模。回归方法可以有效地推断可见表面,但在处理遮挡区域时会遇到困难。生成方法通过建模分布可以更好地处理不确定区域,但计算成本高,并且生成通常与可见表面不一致。在本文中,我们提出了 SPAR3D,这是一种新颖的两阶段方法,旨在兼顾两个方向的优点。SPAR3D 的第一阶段使用轻量级点扩散模型生成稀疏 3D 点云,该模型具有快速的采样速度。第二阶段使用采样点云和输入图像来创建高度详细的网格。原创 2025-02-09 21:24:42 · 563 阅读 · 0 评论 -
Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征
论文将细粒度 3D 生成的边界推向了真正具有创造性的领域。当前的方法要么缺乏复杂的细节,要么只是模仿现有对象——我们同时实现了这两种方法。通过多视图扩散将 2D 细粒度理解提升到 3D,并将部分潜在建模为连续分布,我们解锁了通过插值和采样生成全新但合理部分的能力。自监督特征一致性损失进一步确保了这些看不见的部分的稳定生成。结果是第一个能够创建具有超越现有示例的物种特定细节的新型 3D 对象的系统。虽然我们在鸟类身上展示了我们的方法,但底层框架超越了会鸣叫的事物!原创 2025-02-09 21:24:00 · 545 阅读 · 0 评论 -
单张照片可生成写实3D头部模型!Adobe提出FaceLift,从单一的人脸图像中重建出360度的头部模型。
FaceLift是一种新颖的前馈方法,可从单张图像快速、高质量地重建 360 度头部。流程首先采用多视图潜在扩散模型,该模型可从单个面部输入生成一致的头部侧面和背面视图。然后,这些生成的视图作为 GS-LRM 重建器的输入,GS-LRM 重建器使用高斯 Splats 生成全面的 3D 表示。为了训练系统,使用了合成的 3D 人体头部资产开发了一个多视图渲染数据集。基于扩散的多视图生成器专门在合成头部图像上进行训练,而 GS-LRM 重建器在 Objaverse 上进行初始训练,然后在合成头部数据上进行微调。原创 2025-02-09 21:22:29 · 1298 阅读 · 0 评论 -
NVIDIA提出虚拟试衣新方法EARSB,让时尚与科技完美融合!
给定一个标准产品视图中的孤立服装图像和一个单独的人物图像,虚拟试穿任务旨在生成穿着目标服装的人的新图像。先前的虚拟试穿工作在实现这一目标时面临两大挑战:配对的(人类,服装)训练数据可用性有限;生成与提示服装完美匹配的人体纹理很困难,通常会导致文本扭曲和纹理褪色。论文探索了通过合成数据和模型细化解决这些问题的方法。引入了一种服装提取模型,该模型可以从穿着衣服的个体的单个图像生成(人类,合成服装)对。然后可以使用合成对来增强虚拟试穿的训练。原创 2025-02-09 21:21:45 · 630 阅读 · 0 评论 -
阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!
最近,大规模生成模型已经展示了出色的文本到图像生成能力。然而,生成具有特定主题的高保真个性化图像仍然存在挑战,特别是在涉及多个主题的情况下。论文出了一种统一的个性化主题生成方法 AnyStory。AnyStory 不仅可以实现单个主题的高保真个性化,还可以实现多个主题的高保真个性化,而不会牺牲主题保真度。具体来说,AnyStory 以“编码然后路由”的方式对主题个性化问题进行建模。原创 2025-02-09 21:20:59 · 461 阅读 · 0 评论 -
LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观。
LineArt:一种基于扩散模型、知识引导、无需训练的高质量设计绘图外观转换方法线条图的图像渲染在设计中至关重要,图像生成技术可以降低成本,但专业的线条图需要保留复杂的细节。文本提示难以保证准确性,而图像转换则难以保证一致性和细粒度控制。LineArt是一个将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。它通过模拟分层视觉认知并整合人类艺术经验来指导传播过程,在保留结构准确性的同时生成高保真外观。LineArt 克服了当前方法在细粒度控制困难和设计图中风格退化的局限性。原创 2025-01-16 22:24:00 · 859 阅读 · 0 评论 -
拖动图像编辑再省级!北大、腾讯提出DragonDiffusion,在扩散模型上启用拖动式操作。
尽管现有的大规模文本转图像 (T2I) 模型能够从详细的文本描述生成高质量的图像,但它们往往缺乏对生成或真实图像进行精确编辑的能力。在本文中,我们提出了一种新颖的图像编辑方法DragonDiffusion,可在扩散模型上实现Drag式的操作。具体而言,我们根据扩散模型中中间特征的强对应性构建分类器指导。它可以通过特征对应损失将编辑信号转换为梯度,以修改扩散模型的中间表示。基于这种指导策略,我们还构建了一个多尺度指导,以考虑语义和几何对齐。此外,还添加了跨分支自注意力以保持原始图像和编辑结果之间的一致性。原创 2025-01-16 21:52:24 · 252 阅读 · 0 评论 -
CVPR 2024 spotlight | 解锁图像编辑新境界:DiffEditor,让精细编辑更简单!
它由可训练的图像提示编码器和带有不需要训练的编辑指导的扩散采样组成。原创 2025-01-16 21:51:35 · 400 阅读 · 0 评论 -
浙大|腾讯|华为 提出定制化视频生成框架VideoMaker,可通过参考图实现Zero-shot定制化视频生成。
零样本定制视频生成因其巨大的应用潜力而备受关注。现有方法依赖于附加模型来提取和注入参考主体特征,认为单靠视频扩散模型 (VDM) 不足以生成零样本定制视频。然而,由于特征提取和注入技术不够完善,这些方法往往难以保持一致的主体外观。论文揭示了 VDM 本身具有提取和注入主体特征的能力。与以前的启发式方法不同,论文引入了一个新框架,利用 VDM 的固有能力来实现高质量的零样本定制视频生成。原创 2025-01-14 21:56:49 · 1025 阅读 · 0 评论 -
多身份定制化视频创作的新突破! Ingredients:可将多个特定身份照片整合进视频创作实现个性化视频生成。
在AI技术日新月异的今天,视频生成领域也迎来了众多创新。其中,多身份定制化视频创作成为了一个备受关注的焦点。为了满足这一需求,来自Kunlun Inc.的研究团队提出了一种名为Ingredients的框架,它利用视频扩散Transformer技术,旨在实现高保真身份保留、增强内容灵活性和自然视频生成。本文将详细介绍Ingredients这一突破性成果。Ingredients框架的核心在于结合视频扩散模型和Transformer架构,以实现多身份定制化视频创作。原创 2025-01-14 21:56:00 · 808 阅读 · 0 评论 -
解锁衣物动画的新境界!EUNet:从单块布料学习衣物动画,让衣物动画更智能
在动画制作领域,特别是对于衣物动画的制作,传统方法往往依赖于复杂的物理模型和大规模的数据集。然而,这种方法不仅耗时耗力,而且难以保证模型的通用性和鲁棒性。南洋理工、港大和上海人工智能实验室发表了《Learning animate various time-consuming scheme models of cloth garments by EUNet》的论文,提出了一种创新的解决方案——EUNet,能够从单块布料学习衣物动画,极大地提高了动画制作效率。原创 2025-01-14 21:54:58 · 770 阅读 · 0 评论 -
引领图像编辑领域的新潮流!Edicho:实现跨图像一致编辑的新方法(港科&蚂蚁)
核心组件:Edicho方法主要包括两个核心组件:注意力操控模块和精心优化的无分类器指导(CFG)去噪策略。注意力操控模块:该模块利用显式的对应关系预测来增强自注意力机制,确保编辑效果在不同图像间的一致性。CFG去噪策略:通过注入预计算的对应关系,指导两个级别的去噪过程:注意力特征和噪声潜变量。显式对应关系预测:与隐式对应关系预测相比,显式对应关系更加准确和稳定,能够更好地处理野生图像间的内在变化。原创 2025-01-14 21:54:23 · 589 阅读 · 0 评论 -
Adobe与MIT推出自回归实时视频生成技术CausVid。AI可以边生成视频边实时播放!
当前的视频扩散模型实现了令人印象深刻的生成质量,但由于双向注意力依赖性,在交互式应用中表现不佳。生成单个帧需要模型处理整个序列,包括未来。我们通过将预训练的双向扩散变压器调整为可即时生成帧的自回归变压器来解决这一限制。为了进一步减少延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏为 4 步生成器。为了实现稳定和高质量的蒸馏,我们引入了基于教师 ODE 轨迹的学生初始化方案,以及监督具有双向教师的因果学生模型的非对称蒸馏策略。原创 2025-01-14 21:53:31 · 1693 阅读 · 0 评论 -
解决生成图像质量和美学问题!《VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control》
虽然扩散模型在文本到图像生成方面表现出色,但它们仍可能无法生成高度美观的图像。更具体地说,在颜色、光照、构图等更细粒度的维度上,生成的图像与现实世界的美学图像之间仍然存在差距。在本文中,我们提出了跨注意值混合控制(VMix)适配器,这是一种即插即用的美学适配器,通过(1)通过初始化美学嵌入将输入文本提示解开为内容描述和美学描述,以及(2)通过值混合交叉注意将美学条件整合到去噪过程中,网络通过零初始化的线性层连接,来升级生成图像的质量,同时保持跨视觉概念的通用性。原创 2025-01-14 21:51:53 · 762 阅读 · 0 评论 -
Snap联合港科大提出专为端侧设计的文生图模型SnapGen,模型大小仅为SD的十分之一,可在1.4秒内生成1024分辨率图像。
现有的文本到图像 (T2I) 传播模型面临一些限制,包括模型尺寸大、运行时间慢以及移动设备上的低质量生成。本文旨在通过开发一种极小且快速的 T2I 模型来解决所有这些挑战,该模型可在移动平台上生成高分辨率和高质量的图像。我们提出了几种实现这一目标的技术。首先,我们系统地检查网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,我们从更大的模型中采用跨架构知识提炼,使用多层次方法从头开始指导我们的模型训练。第三,我们通过将对抗性指导与知识提炼相结合来实现几步生成。原创 2025-01-14 21:50:36 · 928 阅读 · 0 评论 -
Open-Sora: 让所有人都能轻松制作高效视频,模型代码全开源!
数据来源与处理利用多个开放数据集(如Webvid-10M、Panda-70M等)生成30M个视频剪辑,确保模型训练的可重复性。数据预处理采用完整的管道,包括场景切割、视频过滤和文本生成,以确保高质量的视频文本对。模型架构使用3D自编码器对视频进行压缩,减少计算负担,并通过文本编码器处理文本输入。采用空间-时间注意力机制,使得模型在生成视频时能够同时考虑空间和时间信息。训练策略采用多阶段训练策略,分为三个阶段以优化训练效率。原创 2025-01-14 21:48:03 · 966 阅读 · 0 评论 -
中科大提出新视频流制作动画解决方案RAIN,可实现真人表情移植和动漫实时动画。
RAIN:无限视频流的实时动画实时动画因增强在线参与度而广受欢迎,但使用扩散模型实现高质量、实时和稳定的动画仍然具有挑战性,尤其是在消费级 GPU 上。现有方法难以有效地生成长而一致的视频流,通常受到延迟问题和长时间内视觉质量下降的限制。在本文中,我们介绍了 RAIN,这是一种管道解决方案,能够使用单个 RTX 4090 GPU 实时低延迟地为无限视频流制作动画。RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。原创 2025-01-14 21:45:08 · 976 阅读 · 0 评论 -
复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成!
布局到图像生成 (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。Layout-to-Image则能根据这些信息,生成符合用户需求的图像。原创 2025-01-10 22:15:26 · 1189 阅读 · 0 评论 -
NeurIPS 2024 | SHMT:通过潜在扩散模型进行自监督分层化妆转移(阿里,武汉理工)
本文研究了化妆迁移这一具有挑战性的任务,旨在将各种化妆风格精确而自然地应用于给定的面部图像。由于缺乏配对数据,当前的方法通常合成次优的伪基本事实来指导模型训练,导致化妆保真度低。此外,不同的化妆风格通常对人脸有不同的影响,但现有的方法很难处理这种多样性。为了解决这些问题,我们提出了一种通过潜在扩散模型的新型自监督分层化妆迁移 (SHMT) 方法。遵循“解耦和重建”范式,SHMT 以自监督的方式工作,摆脱了不精确的伪配对数据的误导。原创 2025-01-05 21:09:37 · 521 阅读 · 0 评论 -
东京大学联合Adobe提出基于指令的图像编辑模型InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑。
通过观察事物如何移动的基于指令的图像操作本文介绍了一种新颖的数据集构建流程,该流程从视频中抽取帧对并使用多模态大型语言模型 (MLLM) 生成编辑指令,以训练基于指令的图像处理模型。视频帧本质上保留了主体和场景的身份,确保在编辑过程中内容保存的一致性。此外,视频数据捕捉了各种自然动态(例如非刚性主体运动和复杂的相机运动),否则很难建模,使其成为可扩展数据集构建的理想来源。原创 2025-01-05 21:08:46 · 900 阅读 · 0 评论 -
实时高保真人脸编辑方法PersonaMagic,可根据肖像无缝生成新角色、风格或场景图像。
PersonaMagic:采用串联平衡的阶段调节高保真面部定制个性化图像生成在将内容适应新概念方面取得了重大进展。然而,仍然存在一个持续的挑战:平衡看不见的概念的准确重建与根据提示进行编辑的需求,特别是在处理面部特征的复杂细微差别时。在本研究中,我们深入研究了文本到图像调节过程的时间动态,强调了阶段划分在引入新概念方面的关键作用。我们提出了 PersonaMagic,这是一种专为高保真面部定制而设计的阶段调节生成技术。原创 2025-01-05 21:07:58 · 619 阅读 · 0 评论 -
小米SU7 2025 璀璨洋红限定色360°全景图首次曝光?TRELLIS给你答案,实现可扩展且多功能的3D生成。
我们引入了一种新颖的 3D 生成方法,用于创建多功能、高质量的 3D 资产。其基石是统一的结构化 LATent ( SL AT ) 表示,它允许解码为不同的输出格式,例如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视图视觉特征相结合来实现的,全面捕获结构(几何)和纹理(外观)信息,同时保持解码过程中的灵活性。原创 2025-01-05 21:06:48 · 1200 阅读 · 0 评论 -
图像超分辨新SOTA!南洋理工提出InvSR,利用大型预训练扩散模型图像先验来提高 SR 性能, 登上Huggingface热门项目。
在两个真实示例中,论文提出的方法与最近最先进的基于扩散的方法进行了定性比较,其中采样步骤数以“方法名称-步骤”格式注释。在第一个示例的子标题中以红色突出显示了运行时间(以毫秒为单位),该示例在 A100 GPU 上的 ×4(128 → 512)SR 任务上进行了测试。该方法提供了一种高效灵活的采样机制,允许用户根据降级类型或其特定要求自由调整采样步骤数。在第一个示例中,主要因模糊而降级,多步采样优于单步采样,因为它可以逐步恢复更精细的细节。原创 2025-01-05 21:03:48 · 678 阅读 · 0 评论 -
Huggingface Trending!可控人物图像生成统一框架Leffa,可精确控制虚拟试穿和姿势转换!
Leffa:学习注意力流场以实现可控人物图像生成可控人物图像生成旨在根据参考图像生成人物图像,从而精确控制人物的外观或姿势。然而,先前的方法尽管实现了较高的整体图像质量,但却经常扭曲参考图像中的细粒度纹理细节。论文将这些扭曲归因于对参考图像中相应区域的注意力不足。为了解决这个问题,作者提出在注意力机制中学习流场(Leffa ),它在训练期间明确引导目标查询关注注意层中的正确参考键。具体而言,它是通过基于扩散的基线内注意力图之上的正则化损失来实现的。原创 2025-01-01 22:31:56 · 1034 阅读 · 0 评论 -
何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录
在视觉中,扩展自回归模型的益处并不像在大型语言模型中那样大。论文在文本到图像生成的背景下研究了这个扩展问题,重点关注两个关键因素:模型是否使用离散或连续标记标记是否使用类似 BERT 或 GPT 的转换器架构以随机或固定光栅顺序生成。实证结果表明,虽然所有模型在验证损失方面都具有有效的扩展性,但它们的评估性能(以 FID、GenEval 分数和视觉质量衡量)遵循不同的趋势。基于连续标记的模型比使用离散标记的模型实现了更好的视觉质量。原创 2025-01-01 22:31:14 · 1159 阅读 · 0 评论 -
马斯克X-AI发布了文生图模型Aurora,已经集成到聊天机器人Grok中。
千呼万唤,马斯克X-AI发布了文生图模型Aurora,并将其整合进了聊天机器人Grok中。Aurora不仅支持文本输入,还可从用户提供的图像中获取灵感,或直接编辑用户上传的图像。Aurora 是一个自回归混合专家网络,经过训练可以从交错的文本和图像数据中预测下一个标记。使用来自互联网的数十亿个示例训练该模型,使其对世界有了深刻的理解。因此,它在照片级逼真的渲染和精确遵循文本指令方面表现出色。除了文本之外,该模型还原生支持多模式输入,使其能够从用户提供的图像中获取灵感或直接编辑用户提供的图像。原创 2025-01-01 22:30:35 · 751 阅读 · 0 评论