![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 84
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
InstantStyle-Plus:风格转移与内容保留在文本到图像的生成
风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:风格,关注图像的美学特征;空间结构,涉及视觉元素的几何排列和组成;语义内容,捕捉图像的概念意义。原创 2024-07-06 09:16:08 · 735 阅读 · 0 评论 -
CLAY或许是今年最值得期待的3D生成模型,号称质量最好+布线最好+支持的输入模态最多+支持材质生成。
在数字创意领域,我们凭借想象力创造复杂 3D 世界的潜力常常受到现有数字工具的限制,这些工具需要大量的专业知识和努力。为了缩小这种差距,我们引入了 CLAY,这是一种 3D 几何和材料生成器,旨在毫不费力地将人类的想象力转化为复杂的 3D 数字结构。CLAY 支持经典的文本或图像输入以及来自各种基元(多视图图像、体素、边界框、点云、隐式表示等)的 3D 感知控件。原创 2024-06-30 18:29:01 · 1152 阅读 · 0 评论 -
理想汽车提出3DRealCar:首个大规模3D真实汽车数据集
3D 汽车通常用于自动驾驶系统、虚拟/增强现实和游戏。然而,现有的 3D 汽车数据集要么是合成的,要么是低质量的,与高质量的真实世界 3D 汽车数据集存在很大差距,限制了它们在实际场景中的应用。在本文中,我们提出了第一个大规模 3D 真实汽车数据集,称为 3DRealCar,它具有三个独特的特点。高容量:2,500 辆汽车经过 3D 扫描仪的精心扫描,获得具有真实世界尺寸的汽车图像和点云;高质量:每辆汽车平均在 200 个密集的高分辨率 360 度 RGB-D 视图中捕获,从而实现高保真 3D 重建;原创 2024-06-30 18:25:38 · 1024 阅读 · 0 评论 -
CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!
在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。原创 2024-06-26 22:34:01 · 553 阅读 · 0 评论 -
字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。
这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:用合成图像替换所有标记的真实图像;扩大我们的教师模型的容量通过大规模伪标记真实图像的桥梁教授学生模型。与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。原创 2024-06-26 22:32:03 · 1043 阅读 · 0 评论 -
阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!
文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:需要根据文本描述准确维护每个参考主题的细节;难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。原创 2024-06-26 22:28:20 · 648 阅读 · 0 评论 -
AI自动生成角色和情节连续的漫画,中山大学&联想提出AutoStudio,可以多轮交互式连续生成并保持主题一致性。
由于尖端的文本转图像 (T2I) 生成模型已经擅长生成出色的单幅图像,因此一项更具挑战性的任务,即多轮交互式图像生成,开始引起相关研究界的关注。此任务要求模型与用户进行多轮交互以生成连贯的图像序列。但是,由于用户可能频繁切换主题,因此当前的努力很难在生成多样化图像的同时保持主题一致性。为了解决这个问题,我们引入了一个无需训练的多智能体框架,称为 AutoStudio。AutoStudio 使用三个基于大型语言模型 (LLM) 的智能体来处理交互,以及一个基于稳定扩散 (SD) 的智能体来生成高质量图像。原创 2024-06-26 22:26:41 · 1477 阅读 · 0 评论 -
上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型
虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。原创 2024-06-22 17:49:34 · 703 阅读 · 0 评论 -
海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!
最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。为实现这一目标,我们做出了以下贡献:创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;原创 2024-06-22 17:48:32 · 734 阅读 · 0 评论 -
Human4DiT:使用 4D Diffusion Transformer 生成自由视角人物视频。
我们提出了一种新的方法,用于从单个图像下在任意观点下产生高质量的时空连贯的人类视频。我们的框架结合了U-NET的优势,以进行准确的状态注入和扩散变压器,以捕获跨观点和时间的全局相关性。核心是级联的4D变压器体系结构,可将注意力跨越跨视图,时间和空间维度分配,从而可以对4D空间进行有效的建模。通过将人类身份,摄像机参数和时间信号注入相应的变压器来实现精确的调理。为了训练该模型,我们策划了一个跨越图像,视频,多视图数据和3D/4D扫描的多维数据集以及多维培训策略。原创 2024-06-20 20:55:41 · 668 阅读 · 0 评论 -
超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。
近年来,扩散模型在图像生成方面表现出色。然而,由于生成超高分辨率图像(例如 4096 × 4096)时内存的二次方增加,生成的图像的分辨率通常限制为 1024 × 1024。在这项工作中,我们提出了一种单向块注意机制,可以在推理过程中自适应地调整内存开销并处理全局依赖关系。在此模块的基础上,我们采用 DiT 结构进行上采样,并开发了一个能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明,我们的模型在机器和人工评估中都能在生成超高分辨率图像方面实现 SOTA 性能。原创 2024-06-17 23:05:50 · 712 阅读 · 0 评论 -
复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。
由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。原创 2024-06-17 22:49:05 · 1087 阅读 · 0 评论 -
超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。
最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽管如此,仍然存在两个限制:需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;生成的视频通常时间较短(例如24帧),阻碍了实际应用。为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。原创 2024-06-17 22:47:18 · 1202 阅读 · 0 评论 -
电商领域利器来了!港大&阿里联合提出MimicBrush,对参考图模仿进行零样本图像编辑,万物皆可编辑。
图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。原创 2024-06-15 10:29:47 · 815 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-12 23:20:19 · 380 阅读 · 0 评论 -
谷歌发布HyperDreameBooth:单张人像20秒内完成模型训练,速度比DreamBooth快25倍,模型小10000倍
个性化已成为生成式 AI 领域的一个突出方面,它能够合成不同背景和风格的个人,同时保持其身份的高保真度。然而,个性化过程在时间和内存需求方面存在固有的挑战。微调每个个性化模型需要投入大量的 GPU 时间,并且存储每个主题的个性化模型对存储容量的要求很高。为了克服这些挑战,我们提出了HyperDreamBooth - 一个超级网络,能够从一个人的单张图像中高效地生成一小组个性化权重。原创 2024-06-12 23:14:40 · 1070 阅读 · 0 评论 -
阿里中科大推出ViViD: 轻松实现视频换衣,虚拟试衣技术迈向实用化
视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果,而之前基于视频的试穿解决方案只能产生低视觉质量和模糊的结果。在这项工作中,我们提出了 ViViD,这是一个采用强大扩散模型来解决视频虚拟试穿任务的新型框架。具体来说,我们设计了服装编码器来提取细粒度的服装语义特征,引导模型捕捉服装细节并通过提出的注意特征融合机制将其注入目标视频。原创 2024-06-12 23:13:12 · 1102 阅读 · 0 评论 -
ControlNet作者新作Omost 一句话将LLM的编码能力转化为图像生成能力,秒变构图小作文,再也不用为不会写提示词担心了!
近日,ControlNet的作者推出了一个全新的项目—Omost。Omost是一个将LLM的编码能力转化为图像生成能力的项目。对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词,就可以生成非常详细并且空间表现很准确的图片。完美解决新手小白不会写提示词的痛点。现在只需一句超简单的提示词说明意图,Agent就会自己开始“构图”。这个名字Omost有两层含义:每次使用 Omost 后,你的图像几乎就完成了;O意思是omni多模式,most意味着我们想最大限度地利用它。原创 2024-06-12 23:11:18 · 598 阅读 · 0 评论 -
效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测!
快手对标Sora的视频大模型「可灵」来了!早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始人兼首席执行官程一笑曾谈及快手自研大模型的研究及应用进展。可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。原创 2024-06-12 23:07:56 · 494 阅读 · 0 评论 -
北交&字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。
最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“戴耳机的狗”时缺少耳机)。有趣的是,我们注意到微调之前的基础模型表现出将基础概念与其他元素组合的能力(例如,戴耳机的狗),这意味着只有在个性化调整后,组合能力才会消失。受此观察的启发,我们提出了 ClassDiffusion,这是一种简单的技术,它利用语义保存损失在学习新概念时明确调节概念空间。原创 2024-06-12 23:03:28 · 792 阅读 · 0 评论 -
首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!
在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的,模型友好的格式,优化与翻译模型的训练比如seq2seq和text2text。在这个新数据集的基础上,我们提出 SignLLM是第一个多语言手语制作(SLP)模型, 它包括两种新颖的多语言SLP模式,允许从输入文本或提示生成手语手势。两者都是 模式可以使用新的损失和基于强化学习的模块, 通过增强模型自主抽取高质量数据的能力,加快了训练速度。原创 2024-06-06 20:30:15 · 646 阅读 · 0 评论 -
SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。
SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。xinsir 发布的Openpose 和 Scribble 模型质量相当好,尤其是 Openpose。不过只支持姿态不支持面部。再加上前几天的 Anyline 线条预处理器和 Canny 模型。SDXL 的生态在发布快一年的时候成熟了。原创 2024-06-06 20:27:53 · 317 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-06 20:25:17 · 511 阅读 · 0 评论 -
重磅消息! Stable Diffusion 3将于6月12日开源 2B 版本的模型,文中附候补注册链接。
在OpenAI发布Sora后,Stability AI也发布了其最新的模型Stabled Diffusion3, 之前的文章中已经和大家介绍过,感兴趣的小伙伴可以点击以下链接阅读。Sora是音视频方向,Stabled Diffusion3是图像生成方向,那么两者没有必然的联系,此外二者的核心部分都是采用了Difusion Transformer的方式。原创 2024-06-04 23:00:34 · 497 阅读 · 1 评论 -
突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型
TTS全称:Text To Speech(也就是文本转语音模型)而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。原创 2024-06-04 22:58:30 · 1994 阅读 · 0 评论 -
3D虚拟试穿来了!港大和西北工业提出GaussianVTON,通过多阶段高斯溅射编辑与2D VTON相结合,使用图像作为编辑提示,首次实现2D到3D的无缝过渡。
电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而,以前的研究主要集中在 2D 领域,并且严重依赖大量数据进行训练。3D VTON 的研究主要集中在服装与体形的兼容性上,这是 2D VTON 中广泛涵盖的一个主题。得益于 3D 场景编辑的进步,2D 扩散模型现已通过多视点编辑适应 3D 编辑。在这项工作中,我们提出了 GaussianVTON,这是一种创新的 3D VTON 管道,将高斯溅射 (GS) 编辑与 2D VTON 相结合。原创 2024-05-27 21:29:46 · 632 阅读 · 0 评论 -
大连理工提出CharacterFactory,仅需2.5GB显存训练10分钟,可以在3秒内无限制地端到端地采样出新的一致性角色,可以结合动作、背景、风格等文本提示实现。
文本到图像模型的最新发展为以人为中心的一代开辟了新的领域。然而,这些模型不能直接用于生成具有一致的新生成身份的图像。在本工作中,我们提出了一个字符框架,该框架允许在GANS的潜在空间中对具有一致身份的新字符进行采样,以用于扩散模型。更具体地说,我们把嵌入名字的单词看作是与身份一致的生成任务的基本真相,并训练一个GAN模型来学习从潜伏空间到嵌入空间的映射。另外,我们设计了一个与上下文一致的损失,以确保生成的身份嵌入能够在各种背景下生成与识别一致的图像。原创 2024-05-27 21:27:57 · 978 阅读 · 0 评论 -
Controlnet作者放出新的大招 IC-Light,可以操控图像生成时的光照,对内容主体重新打光生成符合新背景环境光照的图片
IC-Light代表Impose Constant Light,是一个控制图像照明的项目。可以操控图像生成时的光照,对内容主体重新打光生成符合新背景环境光照的图片。这下商品图合成这种需要最大程度保持原有主体 ID 需求的最大的问题解决了。目前,已经发布了两种类型的模型:文本条件重新光照模型。从原图分离主体之后通过提示词生成符合光照要求的背景同时主体除了光照之外和原主体一致。背景条件模型。给定背景图片和前景主体,会自动生成环境光,保证背景和前景的融合。原创 2024-05-24 21:26:28 · 687 阅读 · 0 评论 -
优于InstantID!中山大学提出ConsistentID:可以仅使用单个图像根据文本提示生成不同的个性化ID图像
基于扩散的技术已经取得了重大进展,特别是在个性化和定制的设施生成方面。然而,现有方法在实现高保真和详细身份(ID)一致性方面面临挑战,这主要是由于对面部区域的细粒度控制不足,以及缺乏通过充分考虑错综复杂的面部细节和整体面部来保存ID的全面策略。为了解决这些限制,我们引入了ConsistentID,这是一种创新的方法,专门用于在细粒度多模式面部提示下生成不同身份的人像,仅使用单个参考图像。原创 2024-05-24 21:23:34 · 853 阅读 · 0 评论 -
FIFO-Diffusion,一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。
我们提出了一种基于预训练扩散模型的新颖推理技术,用于文本条件视频生成。我们的方法称为 FIFO-Diffusion,从概念上讲,无需训练即可生成无限长的视频。这是通过迭代执行对角去噪来实现的,该去噪同时处理队列中噪声级别不断增加的一系列连续帧;我们的方法在头部将完全去噪的帧出队,同时在尾部将新的随机噪声帧入队。然而,对角去噪是一把双刃剑,因为靠近尾部的帧可以通过前向参考利用更干净的帧,但这种策略会导致训练和推理之间的差异。原创 2024-05-24 21:19:38 · 909 阅读 · 0 评论 -
南加州大学&字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。
在这项工作中,我们提出了MagicPose,这是一种基于扩散的模型,用于在具有挑战性的人舞视频中进行2D人体动作和面部表情的转移。具体来说,我们的目标是生成由新颖的姿势序列驱动的任何目标身份的人舞视频,同时保持身份不变。为此,我们提出了一种两阶段的训练策略,以分离人体动作和外观(例如面部表情、肤色和着装),包括对同一数据集的人舞姿势的外观控制块的预训练和对外观-姿势-联合控制块的精细调整。我们的新颖设计使外观控制具有在时间上一致的上半身、面部属性甚至背景。原创 2024-05-23 20:14:03 · 794 阅读 · 0 评论 -
当前最好的SD边线提取工具Anyline:一个快速,准确,详细的线检测预处理器,提供ComfyUI和SD WebUI版本。
Anyline 与 Mistoline ControlNet 模型相结合,形成完整的 SDXL 工作流程,最大限度地提高精确控制并利用 SDXL 模型的生成能力。Anyline 还可以与 SD1.5 的 ControlNet 一起用于 SD1.5 工作流程,尽管它通常在 SDXL 工作流程中的 Anyline+MistoLine 设置中表现更好。原创 2024-05-23 20:08:13 · 764 阅读 · 0 评论 -
重磅!腾讯开源混元文生图大模型,与Sora同架构,中英文原生DiT,可免费商用!
我们提出了Hunyuan-DiT,一种文本到图像的扩散转换器,可以对英语和中文进行细粒度的理解。为了构建Hunyuan-DiT,我们精心设计了变压器结构、文本编码器和位置编码。我们还从头开始构建整个数据管道来更新和评估数据以进行迭代模型优化。为了细粒度的语言理解,我们训练了多模态大语言模型来细化图像的标题。最后,Hunyuan-DiT可以与用户进行多轮多模态对话,根据上下文生成和细化图像。原创 2024-05-22 22:19:21 · 454 阅读 · 0 评论 -
Google发布的CAT3D,在1分钟内,能够从任意数量的真实或生成的图像创建3D场景。
3D重建的进步使高质量的3D捕获成为可能,但需要用户收集数百到数千张图像来创建3D场景。我们提出了cat3d,这是一种通过多视图扩散模型模拟真实世界的捕获过程来创建任何3D内容的方法。给定任意数量的输入图像和一组目标新颖视点,我们的模型生成高度一致的场景新颖视点。这些生成的视图可以用作鲁棒的3D重建技术的输入,以产生可以从任何视点实时呈现的3D表示。CAT3D可以在短短一分钟内创建整个3D场景,并且优于现有的单图像和少视图3D场景创建方法。原创 2024-05-22 22:14:17 · 1982 阅读 · 0 评论 -
MaxKB,基于 LLM 大语言模型的知识库问答系统,开箱即用,支持快速嵌入到第三方业务系统。
MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base,旨在成为企业的最强大脑。开箱即用:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化、RAG(检索增强生成),智能问答交互体验好;无缝嵌入:支持零编码快速嵌入到第三方业务系统;原创 2024-05-21 22:44:12 · 476 阅读 · 0 评论 -
阿里云大幅降价通义千问主力大模型API,降幅高达97%,大大降低了企业使用AI的成本。这一举措使得1元即可处理300万字,将极大推动AI应用的普及和发展。
这款模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400,击穿全球底价。一般我们开发一个RAG应用,或者进行长文本分析,都需要喂大模型一堆私有的数据(比如网友上搜索出来的信息、PDF文档等),给大模型输入的数据会比输出数据大很多倍,因此输入价格的降低幅度越高,我们能省的就越多!阿里通义千问主力模型Qwen-Long将千tokens的输入价格降到了0.0005元/千tokens(原来是0.02元/千tokens,等于直降了97%),相当于1块钱可以买200万tokens。原创 2024-05-21 22:41:09 · 381 阅读 · 0 评论 -
北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。
最近在可控人类图像生成方面的进展导致了使用结构信号(例如,姿势,深度)或面部外观的零拍摄生成。然而,以人类外表的多个部分为条件生成人类图像仍然具有挑战性为了解决这个问题,我们介绍了Parts2Whole,这是一个新的框架,用于从多个参考图像(包括姿势图像和人体外观的各个方面)生成定制肖像。为了实现这一点,我们首先开发了一个语义感知的外观编码器,以保留不同人体部位的细节。将一个基于文本标签将每张图像处理成一系列多尺度特征图,而不是一个图像标记,以保持图像的维度。原创 2024-05-20 21:10:49 · 688 阅读 · 0 评论 -
超越IP-Adapter!字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法!
在本文中,我们提出了MoMA:一个开放词汇,无需训练的个性化图像模型,具有灵活的零拍摄功能。随着基础文本到图像模型的快速发展,对稳健的图像到图像翻译的需求也在增长。为了满足这一需求,moma专注于主题驱动的个性化图像生成。利用开源的多模态大型语言模型(MLLM),我们训练MoMAto作为特征提取器和生成器的双重角色。该方法有效地将参考图像和文本提示信息协同产生有价值的图像特征,促进了图像扩散模型。原创 2024-05-20 21:07:24 · 731 阅读 · 0 评论 -
当前最好的Stable Diffusion角色特征固定工具来了!字节提出PuLID,用于文本生成图像领域,实现了高度的ID保真度与可编辑性。
我们提出了一种新的无需调优的文本到图像生成ID自定义方法PuLID (Pure and Lightning ID customization)。通过将一个标准扩散分支与一个LightningT2I分支结合起来,PuLID引入了对比对准损耗和精确ID损耗,最大限度地减少了对原始模型的干扰,并确保了高ID保真度。实验表明,PuLID在ID保真度和可编辑性方面都取得了较好的性能。PuLID的另一个吸引人的特性是,插入ID前后的图像元素(例如背景、光照、构图和样式)尽可能保持一致。原创 2024-05-16 22:49:59 · 451 阅读 · 0 评论 -
字节提出ControlNet++:更强更可控的图像生成框架!通过高效的一致性反馈改进条件控制!
为了增强文本对图像扩散模型的可控性,现有的方法有如ControlNet Incorporated基于图像的条件来进行控制。在本文中,我们揭示了现有方法在生成与图像条件控件保持一致的图像时仍面临重大挑战。为此,我们提出了ControlNet ++,这是一种新颖的方法,可以通过明确优化生成的图像和条件控制之间的像素级循环一致性来改善可控生成。具体而言,对于输入条件控制,我们使用预先训练的判别奖励模型来提取生成的图像的相应条件,然后优化输入条件控制和提取条件之间的一致性损失。原创 2024-05-16 22:46:25 · 978 阅读 · 0 评论