![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 86
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
中山大学与Pixocial联手提出CatVTON:轻量化架构与高效训练,助力虚拟试衣技术落地应用!
基于扩散模型的虚拟试戴方法 实现真实的试穿效果,但复制骨干 网络作为参考网或利用额外的图像编码器来处理条件输入,导致高训练和推理成本。在这项工作中,我们重新思考了ReferenceNet和图像编码器的必要性,并对其进行了创新 设计了一种简单高效的虚拟试戴扩散模型CatVTON。它可以方便地将任意类别的店内或穿过的服装无缝转移到目标人群 将它们在空间维度上连接起来作为输入。模型的有效性体现在三个方面:轻量级的网络。只有原来的扩散模块,不需要额外的网络模块。原创 2024-07-28 23:35:31 · 218 阅读 · 0 评论 -
超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大&阿里发布MovieDreamer,纯AI生成电影引爆热议!
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer,这是一种新颖的分层框架,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测视觉标记序列,然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程,将复杂的故事分解为可管理的场景捕捉。原创 2024-07-28 22:54:06 · 654 阅读 · 0 评论 -
一键解锁百变发型!上交联合Tiamat震撼发布Stable-Hair发型移植黑科技!
目前的头发移植方法难以处理多样而复杂的发型,因此限制了它们在现实场景中的适用性。在本文中,我们提出了一种基于扩散的新型头发移植框架Stable-Hair,它可以将各种现实世界的发型稳健地移植到用户提供的脸上,以供虚拟试穿。为了实现这一目标,我们的 Stable-Hair 框架设计为两阶段管道。在第一阶段,我们训练秃头转换器和稳定扩散,以从用户提供的脸部图像中去除头发,从而得到秃头图像。原创 2024-07-25 21:11:53 · 652 阅读 · 0 评论 -
[ECCV 2024] [复旦]RECE:扩散模型概念移除,只需3秒即可充分移除风险概念!
为了解决上述问题,研究团队提出了一种可靠、高效的概念移除方法(RECE)。该方法以解析解的形式,迭代地进行风险概念移除、风险概念嵌入推导,从而确保模型彻底移除风险概念。RECE借鉴了对抗训练的思想,通过计算目标函数的解析解,高效地推导出新的风险概念嵌入,然后通过修改交叉注意力层,将它们与无害概念对齐。此外,为了保留模型的生成能力,RECE在嵌入推导过程中证明并引入了一个额外的正则项,从而最小化对生成能力的损害。可靠高效的概念移除前置知识。原创 2024-07-24 21:55:28 · 426 阅读 · 0 评论 -
3D虚拟试穿来了,上大、腾讯等提出ClotheDreamer,数字人也能实现穿,脱衣自由!
从文本合成高保真 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性,但要么与人体错综复杂地耦合,要么难以重复使用。我们介绍了 ClotheDreamer,这是一种基于 3D 高斯的方法,用于从文本提示生成可穿戴、可用于生产的 3D 服装资产。我们提出了一种新颖的表示解缠结服装高斯溅射 (DCGS) 来实现单独优化。DCGS 将穿衣的化身表示为一个高斯模型,但冻结了身体高斯溅射。原创 2024-07-23 21:56:48 · 617 阅读 · 0 评论 -
腾讯开源SEED-Story:AI续写小说还能自动配图!
随着图像生成和开放格式文本生成的显著进步,交错图像文本内容的创建已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像,已成为一项有价值且实用的任务,具有广泛的应用。然而,这项任务带来了重大挑战,因为它需要理解文本和图像之间复杂的相互作用,并能够生成长序列的连贯、上下文相关的文本和视觉效果。在这项工作中,我们提出了 SEED-Story,这是一种利用多模态大型语言模型 (MLLM) 生成扩展多模态故事的新方法。原创 2024-07-19 23:51:57 · 694 阅读 · 0 评论 -
家装设计师福音!HouseCrafter,一键将房子的平面图转成完整的3D室内场景!
HouseCrafter是一种新颖的方法,可以将平面图提升为完整的大型 3D 室内场景(例如房屋)。我们的主要见解是调整在网络规模图像上训练的 2D 扩散模型,以在场景的不同位置生成一致的多视图颜色 (RGB) 和深度 (D) 图像。具体来说,RGB-D 图像以分批方式自回归地沿着基于布局图的采样位置生成,其中先前生成的图像用作扩散模型的条件以在附近位置生成图像。扩散模型中的全局布局图和注意力设计确保了生成的图像的一致性,从中可以重建 3D 场景。原创 2024-07-19 23:48:51 · 236 阅读 · 0 评论 -
腾讯震撼发布!MOFA-Video:表情随心换,运动由你控,视频创作由你做主!
MOFA-Video是一种先进的可控图像动画方法,它使用各种额外的可控信号(例如人体地标参考、手动轨迹,甚至提供的另一个视频)或它们的组合从给定的图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散之前表现出较弱的控制能力。为了实现我们的目标,我们设计了几个领域感知的运动场适配器(即 MOFA-Adapters)来控制视频生成管道中生成的运动。原创 2024-07-14 16:42:52 · 605 阅读 · 0 评论 -
AI生图可以直出了!谷歌和Adobe提出使用图像神经场来训练扩散模型,AI生成图像走向真实化!
扩散模型表现出了令人印象深刻的对复杂数据分布进行建模的能力,与 GAN 相比具有几个关键优势,例如训练稳定、更好地覆盖训练分布的模式以及无需额外训练即可解决逆问题的能力。然而,大多数扩散模型学习的是固定分辨率图像的分布。我们提出通过在可以以任何分辨率渲染的图像神经场上训练扩散模型来学习连续图像的分布,并展示其相对于固定分辨率模型的优势。要实现这一点,一个关键挑战是获得一个代表照片级真实感图像神经场的潜在空间。原创 2024-07-14 16:39:35 · 686 阅读 · 0 评论 -
效果拿下新SOTA!中山大学&字节提出虚拟试穿框架-MMTryon,可通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。
本文介绍了 MMTryon,一种多模态多参考虚拟试穿 (VITON) 框架,该框架可以通过将文本指令和多张服装图像作为输入来生成高质量的组合试穿结果。我们的 MMTryon 解决了先前文献中忽略的三个问题:支持多个试穿项目。现有方法通常设计用于单件试穿任务(例如,上衣/下装、连衣裙)。穿衣风格的规范。现有方法无法根据说明定制穿衣风格(例如,拉上/拉开拉链、塞进/塞出等)分割依赖性。它们进一步严重依赖特定类别的分割模型来识别替换区域,分割错误直接导致试穿结果中出现明显的伪影。原创 2024-07-14 16:36:52 · 1094 阅读 · 0 评论 -
Poetry2Image:专为中文古诗词图像生成,忠于原诗意境和语义。
文本到图像的生成模型在涉及中国古典诗歌的任务中经常会遇到关键元素丢失或语义混淆的问题。通过微调模型解决这个问题需要相当大的训练成本。此外,手动提示重新扩散调整需要专业知识。为了解决这个问题,我们提出了 Poetry2Image,这是一个针对中国古典诗歌生成图像的迭代校正框架。利用外部诗歌数据集,Poetry2Image 建立了一个自动反馈和校正循环,通过图像生成模型和随后由大型语言模型 (LLM) 建议的重新扩散修改来增强诗歌和图像之间的一致性。原创 2024-07-14 16:32:04 · 577 阅读 · 0 评论 -
InstantStyle-Plus:风格转移与内容保留在文本到图像的生成
风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:风格,关注图像的美学特征;空间结构,涉及视觉元素的几何排列和组成;语义内容,捕捉图像的概念意义。原创 2024-07-06 09:16:08 · 1004 阅读 · 0 评论 -
CLAY或许是今年最值得期待的3D生成模型,号称质量最好+布线最好+支持的输入模态最多+支持材质生成。
在数字创意领域,我们凭借想象力创造复杂 3D 世界的潜力常常受到现有数字工具的限制,这些工具需要大量的专业知识和努力。为了缩小这种差距,我们引入了 CLAY,这是一种 3D 几何和材料生成器,旨在毫不费力地将人类的想象力转化为复杂的 3D 数字结构。CLAY 支持经典的文本或图像输入以及来自各种基元(多视图图像、体素、边界框、点云、隐式表示等)的 3D 感知控件。原创 2024-06-30 18:29:01 · 1225 阅读 · 0 评论 -
理想汽车提出3DRealCar:首个大规模3D真实汽车数据集
3D 汽车通常用于自动驾驶系统、虚拟/增强现实和游戏。然而,现有的 3D 汽车数据集要么是合成的,要么是低质量的,与高质量的真实世界 3D 汽车数据集存在很大差距,限制了它们在实际场景中的应用。在本文中,我们提出了第一个大规模 3D 真实汽车数据集,称为 3DRealCar,它具有三个独特的特点。高容量:2,500 辆汽车经过 3D 扫描仪的精心扫描,获得具有真实世界尺寸的汽车图像和点云;高质量:每辆汽车平均在 200 个密集的高分辨率 360 度 RGB-D 视图中捕获,从而实现高保真 3D 重建;原创 2024-06-30 18:25:38 · 1088 阅读 · 0 评论 -
CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!
在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。原创 2024-06-26 22:34:01 · 622 阅读 · 0 评论 -
字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。
这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:用合成图像替换所有标记的真实图像;扩大我们的教师模型的容量通过大规模伪标记真实图像的桥梁教授学生模型。与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。原创 2024-06-26 22:32:03 · 1201 阅读 · 0 评论 -
阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!
文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:需要根据文本描述准确维护每个参考主题的细节;难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。原创 2024-06-26 22:28:20 · 686 阅读 · 0 评论 -
AI自动生成角色和情节连续的漫画,中山大学&联想提出AutoStudio,可以多轮交互式连续生成并保持主题一致性。
由于尖端的文本转图像 (T2I) 生成模型已经擅长生成出色的单幅图像,因此一项更具挑战性的任务,即多轮交互式图像生成,开始引起相关研究界的关注。此任务要求模型与用户进行多轮交互以生成连贯的图像序列。但是,由于用户可能频繁切换主题,因此当前的努力很难在生成多样化图像的同时保持主题一致性。为了解决这个问题,我们引入了一个无需训练的多智能体框架,称为 AutoStudio。AutoStudio 使用三个基于大型语言模型 (LLM) 的智能体来处理交互,以及一个基于稳定扩散 (SD) 的智能体来生成高质量图像。原创 2024-06-26 22:26:41 · 1535 阅读 · 0 评论 -
上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型
虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。原创 2024-06-22 17:49:34 · 720 阅读 · 0 评论 -
海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!
最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。为实现这一目标,我们做出了以下贡献:创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;原创 2024-06-22 17:48:32 · 761 阅读 · 0 评论 -
Human4DiT:使用 4D Diffusion Transformer 生成自由视角人物视频。
我们提出了一种新的方法,用于从单个图像下在任意观点下产生高质量的时空连贯的人类视频。我们的框架结合了U-NET的优势,以进行准确的状态注入和扩散变压器,以捕获跨观点和时间的全局相关性。核心是级联的4D变压器体系结构,可将注意力跨越跨视图,时间和空间维度分配,从而可以对4D空间进行有效的建模。通过将人类身份,摄像机参数和时间信号注入相应的变压器来实现精确的调理。为了训练该模型,我们策划了一个跨越图像,视频,多视图数据和3D/4D扫描的多维数据集以及多维培训策略。原创 2024-06-20 20:55:41 · 698 阅读 · 0 评论 -
超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。
近年来,扩散模型在图像生成方面表现出色。然而,由于生成超高分辨率图像(例如 4096 × 4096)时内存的二次方增加,生成的图像的分辨率通常限制为 1024 × 1024。在这项工作中,我们提出了一种单向块注意机制,可以在推理过程中自适应地调整内存开销并处理全局依赖关系。在此模块的基础上,我们采用 DiT 结构进行上采样,并开发了一个能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明,我们的模型在机器和人工评估中都能在生成超高分辨率图像方面实现 SOTA 性能。原创 2024-06-17 23:05:50 · 751 阅读 · 0 评论 -
复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。
由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。原创 2024-06-17 22:49:05 · 1141 阅读 · 0 评论 -
超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。
最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽管如此,仍然存在两个限制:需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;生成的视频通常时间较短(例如24帧),阻碍了实际应用。为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。原创 2024-06-17 22:47:18 · 1237 阅读 · 0 评论 -
电商领域利器来了!港大&阿里联合提出MimicBrush,对参考图模仿进行零样本图像编辑,万物皆可编辑。
图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。原创 2024-06-15 10:29:47 · 858 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-12 23:20:19 · 388 阅读 · 0 评论 -
谷歌发布HyperDreameBooth:单张人像20秒内完成模型训练,速度比DreamBooth快25倍,模型小10000倍
个性化已成为生成式 AI 领域的一个突出方面,它能够合成不同背景和风格的个人,同时保持其身份的高保真度。然而,个性化过程在时间和内存需求方面存在固有的挑战。微调每个个性化模型需要投入大量的 GPU 时间,并且存储每个主题的个性化模型对存储容量的要求很高。为了克服这些挑战,我们提出了HyperDreamBooth - 一个超级网络,能够从一个人的单张图像中高效地生成一小组个性化权重。原创 2024-06-12 23:14:40 · 1086 阅读 · 0 评论 -
阿里中科大推出ViViD: 轻松实现视频换衣,虚拟试衣技术迈向实用化
视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果,而之前基于视频的试穿解决方案只能产生低视觉质量和模糊的结果。在这项工作中,我们提出了 ViViD,这是一个采用强大扩散模型来解决视频虚拟试穿任务的新型框架。具体来说,我们设计了服装编码器来提取细粒度的服装语义特征,引导模型捕捉服装细节并通过提出的注意特征融合机制将其注入目标视频。原创 2024-06-12 23:13:12 · 1224 阅读 · 0 评论 -
北交&字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。
最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“戴耳机的狗”时缺少耳机)。有趣的是,我们注意到微调之前的基础模型表现出将基础概念与其他元素组合的能力(例如,戴耳机的狗),这意味着只有在个性化调整后,组合能力才会消失。受此观察的启发,我们提出了 ClassDiffusion,这是一种简单的技术,它利用语义保存损失在学习新概念时明确调节概念空间。原创 2024-06-12 23:03:28 · 797 阅读 · 0 评论 -
首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!
在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的,模型友好的格式,优化与翻译模型的训练比如seq2seq和text2text。在这个新数据集的基础上,我们提出 SignLLM是第一个多语言手语制作(SLP)模型, 它包括两种新颖的多语言SLP模式,允许从输入文本或提示生成手语手势。两者都是 模式可以使用新的损失和基于强化学习的模块, 通过增强模型自主抽取高质量数据的能力,加快了训练速度。原创 2024-06-06 20:30:15 · 758 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-06 20:25:17 · 536 阅读 · 0 评论 -
3D虚拟试穿来了!港大和西北工业提出GaussianVTON,通过多阶段高斯溅射编辑与2D VTON相结合,使用图像作为编辑提示,首次实现2D到3D的无缝过渡。
电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而,以前的研究主要集中在 2D 领域,并且严重依赖大量数据进行训练。3D VTON 的研究主要集中在服装与体形的兼容性上,这是 2D VTON 中广泛涵盖的一个主题。得益于 3D 场景编辑的进步,2D 扩散模型现已通过多视点编辑适应 3D 编辑。在这项工作中,我们提出了 GaussianVTON,这是一种创新的 3D VTON 管道,将高斯溅射 (GS) 编辑与 2D VTON 相结合。原创 2024-05-27 21:29:46 · 650 阅读 · 0 评论 -
大连理工提出CharacterFactory,仅需2.5GB显存训练10分钟,可以在3秒内无限制地端到端地采样出新的一致性角色,可以结合动作、背景、风格等文本提示实现。
文本到图像模型的最新发展为以人为中心的一代开辟了新的领域。然而,这些模型不能直接用于生成具有一致的新生成身份的图像。在本工作中,我们提出了一个字符框架,该框架允许在GANS的潜在空间中对具有一致身份的新字符进行采样,以用于扩散模型。更具体地说,我们把嵌入名字的单词看作是与身份一致的生成任务的基本真相,并训练一个GAN模型来学习从潜伏空间到嵌入空间的映射。另外,我们设计了一个与上下文一致的损失,以确保生成的身份嵌入能够在各种背景下生成与识别一致的图像。原创 2024-05-27 21:27:57 · 992 阅读 · 0 评论 -
优于InstantID!中山大学提出ConsistentID:可以仅使用单个图像根据文本提示生成不同的个性化ID图像
基于扩散的技术已经取得了重大进展,特别是在个性化和定制的设施生成方面。然而,现有方法在实现高保真和详细身份(ID)一致性方面面临挑战,这主要是由于对面部区域的细粒度控制不足,以及缺乏通过充分考虑错综复杂的面部细节和整体面部来保存ID的全面策略。为了解决这些限制,我们引入了ConsistentID,这是一种创新的方法,专门用于在细粒度多模式面部提示下生成不同身份的人像,仅使用单个参考图像。原创 2024-05-24 21:23:34 · 874 阅读 · 0 评论 -
FIFO-Diffusion,一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。
我们提出了一种基于预训练扩散模型的新颖推理技术,用于文本条件视频生成。我们的方法称为 FIFO-Diffusion,从概念上讲,无需训练即可生成无限长的视频。这是通过迭代执行对角去噪来实现的,该去噪同时处理队列中噪声级别不断增加的一系列连续帧;我们的方法在头部将完全去噪的帧出队,同时在尾部将新的随机噪声帧入队。然而,对角去噪是一把双刃剑,因为靠近尾部的帧可以通过前向参考利用更干净的帧,但这种策略会导致训练和推理之间的差异。原创 2024-05-24 21:19:38 · 961 阅读 · 0 评论 -
南加州大学&字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。
在这项工作中,我们提出了MagicPose,这是一种基于扩散的模型,用于在具有挑战性的人舞视频中进行2D人体动作和面部表情的转移。具体来说,我们的目标是生成由新颖的姿势序列驱动的任何目标身份的人舞视频,同时保持身份不变。为此,我们提出了一种两阶段的训练策略,以分离人体动作和外观(例如面部表情、肤色和着装),包括对同一数据集的人舞姿势的外观控制块的预训练和对外观-姿势-联合控制块的精细调整。我们的新颖设计使外观控制具有在时间上一致的上半身、面部属性甚至背景。原创 2024-05-23 20:14:03 · 827 阅读 · 0 评论 -
重磅!腾讯开源混元文生图大模型,与Sora同架构,中英文原生DiT,可免费商用!
我们提出了Hunyuan-DiT,一种文本到图像的扩散转换器,可以对英语和中文进行细粒度的理解。为了构建Hunyuan-DiT,我们精心设计了变压器结构、文本编码器和位置编码。我们还从头开始构建整个数据管道来更新和评估数据以进行迭代模型优化。为了细粒度的语言理解,我们训练了多模态大语言模型来细化图像的标题。最后,Hunyuan-DiT可以与用户进行多轮多模态对话,根据上下文生成和细化图像。原创 2024-05-22 22:19:21 · 472 阅读 · 0 评论 -
Google发布的CAT3D,在1分钟内,能够从任意数量的真实或生成的图像创建3D场景。
3D重建的进步使高质量的3D捕获成为可能,但需要用户收集数百到数千张图像来创建3D场景。我们提出了cat3d,这是一种通过多视图扩散模型模拟真实世界的捕获过程来创建任何3D内容的方法。给定任意数量的输入图像和一组目标新颖视点,我们的模型生成高度一致的场景新颖视点。这些生成的视图可以用作鲁棒的3D重建技术的输入,以产生可以从任何视点实时呈现的3D表示。CAT3D可以在短短一分钟内创建整个3D场景,并且优于现有的单图像和少视图3D场景创建方法。原创 2024-05-22 22:14:17 · 2016 阅读 · 0 评论 -
北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。
最近在可控人类图像生成方面的进展导致了使用结构信号(例如,姿势,深度)或面部外观的零拍摄生成。然而,以人类外表的多个部分为条件生成人类图像仍然具有挑战性为了解决这个问题,我们介绍了Parts2Whole,这是一个新的框架,用于从多个参考图像(包括姿势图像和人体外观的各个方面)生成定制肖像。为了实现这一点,我们首先开发了一个语义感知的外观编码器,以保留不同人体部位的细节。将一个基于文本标签将每张图像处理成一系列多尺度特征图,而不是一个图像标记,以保持图像的维度。原创 2024-05-20 21:10:49 · 697 阅读 · 0 评论 -
超越IP-Adapter!字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法!
在本文中,我们提出了MoMA:一个开放词汇,无需训练的个性化图像模型,具有灵活的零拍摄功能。随着基础文本到图像模型的快速发展,对稳健的图像到图像翻译的需求也在增长。为了满足这一需求,moma专注于主题驱动的个性化图像生成。利用开源的多模态大型语言模型(MLLM),我们训练MoMAto作为特征提取器和生成器的双重角色。该方法有效地将参考图像和文本提示信息协同产生有价值的图像特征,促进了图像扩散模型。原创 2024-05-20 21:07:24 · 754 阅读 · 0 评论