
AIGC
文章平均质量分 82
专注AIGC、Diffusion models,Stable Diffusion, Sora等视觉大模型, 分享AIGC最前沿最好玩的应用。
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
图像定制大一统?字节提出DreamO,支持人物生成、 ID保持、虚拟试穿、风格迁移等多项任务,有效解决多泛化性冲突。
字节跳动推出的DreamO是一个创新的统一图像定制框架,它基于预训练的DiT模型,通过训练少量附加参数来实现多种复杂的图像定制任务,如人物生成、ID保持、虚拟试穿和风格迁移等。DreamO通过特征路由约束和渐进式训练策略,增强了图像的一致性和保真度,并有效解决了多条件场景下的解耦问题。该框架还引入了占位符策略,以建立文本描述与条件图像之间的对应关系。实验结果显示,DreamO在多种图像定制任务中均表现出高质量和灵活性,现已支持在消费级GPU上进行试用。DreamO的设计不仅提升了图像定制的效率和质量,还降低原创 2025-05-18 21:10:17 · 724 阅读 · 0 评论 -
字节DreamFit 虚拟试衣:任意服装随心试,多风格人体模特一键匹配生成,轻量级即插即用!
字节跳动推出的DreamFit是一款创新的虚拟试衣框架,它结合了轻量级的任何服装编码器,专为以服装为中心的人类生成设计。DreamFit的三大优势包括:轻量训练,仅需8340万可训练参数;能够试穿任意风格的服装;以及即插即用的特性,兼容各种社区插件。该框架通过自适应注意力和LoRA模块显著降低模型复杂度,并利用预训练的大型多模态模型(LMM)提升生成质量。DreamFit在公开和内部基准测试中表现出色,超越了现有方法,展示了其在以服装为中心的人体生成领域的领先优势。相关资源包括论文、代码、模型和工作流,均可原创 2025-05-18 21:09:33 · 626 阅读 · 0 评论 -
谷歌提出图像灯光编辑方法LightLab,只要一张图+AI,光影效果全搞定!
谷歌推出的LightLab是一种基于扩散模型的技术,旨在实现对单张图像中光源的细粒度和参数化控制。该方法能够调整可见光源的强度和颜色、环境光照的强度,并可在场景中插入虚拟光源。LightLab通过显式的参数化控制,生成物理上合理的阴影和环境光效应,从而提供了一种高质量的光照编辑解决方案。该技术的主要贡献在于有效地微调和调节扩散模型,使用户能够进行复杂且连续的照明编辑。通过结合真实和合成数据,LightLab在物理合理性和用户满意度方面均优于先前的研究成果,展示了基于物理的图像编辑的潜力。原创 2025-05-18 21:08:02 · 693 阅读 · 0 评论 -
谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式
BLIP3-o是一个创新的多模态模型,它结合了自回归模型的推理能力和扩散模型的生成能力,通过扩散语义丰富的CLIP图像特征,实现了高效的图像理解和生成。该模型完全开源,包括训练数据、模型权重和代码,支持多种任务如文本到图像生成、图像到文本理解等。BLIP3-o在多个基准测试中表现出色,其设计采用了CLIP特征扩散和顺序预训练策略,有效提升了模型的训练效率和生成质量。此外,作者还发布了一个高质量的指令调整数据集BLIP3o-60k,进一步增强了模型的性能。BLIP3-o的推出为多模态模型的研究和应用提供了新的原创 2025-05-18 21:07:11 · 956 阅读 · 0 评论 -
SECERN AI提出3D生成方法SVAD!单张图像合成超逼真3D Avatar!
SECERNAI提出的SVAD方法通过视频扩散生成合成训练数据,结合身份保留和图像恢复模块,优化数据以训练3D高斯分布(3DGS)虚拟形象。该方法在保持身份一致性和精细细节方面优于现有的单张图像方法,并具备实时渲染能力。SVAD克服了传统3DGS方法对密集训练数据的依赖,通过单幅图像输入生成高质量、可动画化的3D虚拟形象。实验表明,SVAD在多个指标上优于基线模型,但面临背景分割不准确、复杂服装纹理处理困难及高计算需求等挑战。未来工作将优化对不同服装类型的处理和计算性能。原创 2025-05-17 12:32:51 · 478 阅读 · 0 评论 -
6秒音频即可克隆AI语音!FLOAT数字人生成语音/口型/表情,情感同步超惊艳,文中附工作流。
FLOAT是一种创新的音频驱动说话肖像视频生成方法,它通过流匹配技术提高了唇形同步质量和生成速度。该方法能够处理分布外数据,生成逼真的说话肖像视频,并支持情绪转移,即使在语音传达模糊或混合情绪时也能细化情绪。FLOAT基于运动潜在自编码器构建,通过流匹配生成音频调节的说话肖像运动潜在表征,并加入语音驱动的情绪标签以增强自然度。与最先进的非扩散和基于扩散的方法相比,FLOAT在视觉质量、运动保真度和效率方面表现出色。该方法的提出解决了基于扩散的说话肖像视频生成方法在时间一致性视频生成和快速采样方面的挑战。原创 2025-05-17 12:31:39 · 617 阅读 · 0 评论 -
告别“纸片人“试衣!阿里&浙大提出3DV-TON,用3D几何骨架+动态纹理场,让虚拟模特“活“出真实衣褶!
视频试穿将视频中的服装替换为目标服装。现有方法在处理复杂的服装图案和多样的身体姿势时难以生成高质量且时间一致的结果。论文提出了3DV-TON,这是一个基于扩散的新型框架,用于生成高保真度和时间一致的视频试穿结果。提出的方法采用生成的可动画的纹理 3D 网格作为明确的帧级指导,从而缓解模型在运动连贯性扩展时过分关注外观保真度的问题。这是通过在整个视频序列中直接参考一致的服装纹理运动来实现的。所提出的方法具有用于生成动态 3D 指导的自适应流程:选择初始 2D 图像试穿的关键帧,原创 2025-05-07 22:42:54 · 468 阅读 · 0 评论 -
AI Agent 孵化器?CAMEL-AI框架介绍,一文带你读懂背后的逻辑。
🐫 CAMEL 是一个致力于寻找代理扩展规律的开源社区。我们相信,大规模研究这些代理可以深入了解它们的行为、能力和潜在风险。为了促进该领域的研究,我们实现并支持各种类型的代理、任务、提示、模型和模拟环境。原创 2025-03-09 12:08:47 · 674 阅读 · 0 评论 -
Manus平替来了!CAMEL-AI开源OWL,开源框架中排名第一,上线一天获得3.3K stars!
OWL 在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名第一!OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。具体可以看公众号今天推送的第二篇文章~OWL的愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。3月7号OWL在GitHub上开源了代码,一天就获得3.3k stars!原创 2025-03-09 12:08:14 · 2213 阅读 · 0 评论 -
OpenManus:5个人三小时复刻开源版Manus,不需要邀请码,人人可用,GitHub 8k+ star!
Manus 令人难以置信,但 OpenManus 可以在没有邀请码的情况下实现任何想法!OpenManus团队来自MetaGPT,团队成员只用了1个小时就完成了核心系统,整体也只用了3个小时。每个人都可以使用OpenManus享受自己的代理!目前已经8k+star了!核心作者梁新兵介绍,OpenManus的火速上线,来源于MetaGPT积累下的技术沉淀。昨天晚上作者也在Datewhale上进行了一次分享,分享了自己在OpenManus上的工作。以下是作者分享的一些截图,有没有昨晚一起看直播的小伙伴~原创 2025-03-09 12:07:04 · 547 阅读 · 0 评论 -
Manus:通用AI Agent的崛起,2025年的科技新星?
Manus是全球首款真正意义上的通用AI Agent,它能够独立思考、规划并执行复杂任务,直接交付完整成果。从发布的视频演示来看,Manus在接到用户指令后可以直接操作电脑完成一系列报告撰写、表格制作等工作,并在最后导出符合用户需求的产品。一起见证国产AI崛起!原创 2025-03-09 12:05:14 · 1418 阅读 · 0 评论 -
阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!
I2V-14B 模型的表现超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 性能。它能够根据输入的文本和图像生成展示复杂视觉场景和运动模式的视频,包括 480P 和 720P 分辨率的模型。原创 2025-03-09 12:04:25 · 2280 阅读 · 0 评论 -
ComfyUI | 背景移除插件:ComfyUI-RMBG,支持物体、人脸、服装和时尚元素的精准分割
分享 GitHub 上一款强大的 ComfyUI 背景移除插件:ComfyUI-RMBG。支持物体、人脸、服装和时尚元素的精准分割,整合了多种先进模型包括 RMBG-2.0、INSPYRENET、BEN、BEN2、BiRefNet 模型、SAM 和 GroundingDINO。还支持批量处理、可自由调整敏感度、分辨率、模糊度等参数。可通过 ComfyUI-Manager 搜索安装,或直接克隆到 custom_nodes 文件夹中,首次使用时会自动下载所需模型。原创 2025-03-09 12:03:35 · 649 阅读 · 0 评论 -
AI赋能艺术修图新纪元!PhotoDoodle,少数案例解锁照片秒变艺术大作!“
PhotoDoodle:从少数几个例子中学习艺术图像编辑PhotoDoodle是一种新颖的图像编辑框架,旨在通过让艺术家将装饰元素叠加到照片上来促进照片涂鸦。照片涂鸦具有挑战性,因为插入的元素必须与背景无缝集成,需要逼真的混合、透视对齐和上下文连贯性。此外,必须保留背景而不失真,并且必须从有限的训练数据中有效捕捉艺术家的独特风格。以前的方法主要侧重于全局风格转移或区域修复,无法满足这些要求。PhotoDoodle 采用两阶段训练策略。首先使用大规模数据训练通用图像编辑模型 OmniEditor。原创 2025-03-09 12:02:42 · 419 阅读 · 0 评论 -
南开提出1Prompt1Story,无需训练,可通过单个连接提示实现一致的文本到图像生成。
论文出了一种无需训练的方法1Prompt1Story,通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。此外,它还支持多字符生成、ControlNet 引导生成和个性化生成逼真的图像。原创 2025-03-09 12:00:55 · 779 阅读 · 0 评论 -
免费才是王者?Grok 已冲到美区榜一!XAI 发布Grok3的详细介绍文章。
在 200 多万人的见证下,马斯克的 AI 公司 xAI 正式推出 Grok 3! 果然,谁能让用户免费用好模型,谁就能起量。 目前,Grok 应用现在已经是美区榜一了。XAI 发布了 Grok3 的详细介绍文章里面有各个功能的介绍和基准测试结果x.ai/blog/grok-3Grok 3是我们迄今为止最先进的模型:将强大的推理能力与广泛的预训练知识相结合。Grok 3 在我们的 Colossus 超级集群上进行训练,其计算能力是之前最先进模型的 10 倍,在推理、数学、编码、世界知识和指令遵循任务方面表现原创 2025-03-03 21:08:03 · 1553 阅读 · 0 评论 -
魔发奇缘,3D发型生成新突破!TANGLED:利用任意样式和视点的图像生成 3D 发束
发型错综复杂,具有各种几何形状、纹理和结构,具有重要的文化意义。现有的文本或图像引导生成方法无法处理丰富而复杂的各种发型。我们提出了 TANGLED,这是一种用于生成 3D 发束的新方法,可适应不同风格、视点和输入视图数量的各种图像输入。TANGLED 采用三步流程: 首先,我们的 MultiHair 数据集提供了 457 种不同的发型,并标注了 74 种属性,强调复杂且具有重要文化意义的发型,以提高模型的泛化能力。原创 2025-03-03 21:06:20 · 750 阅读 · 0 评论 -
港科大提出开放全曲音乐生成基础模型YuE:可将歌词转换成完整歌曲
从给定的歌词生成整首歌曲音乐音频称为 lyrics2song。虽然基于文本的音乐生成模型已在非人声音乐的短片段上产生了高质量的结果,但生成包含人声和伴奏部分的长达数分钟的完整歌曲仍然是一个具有挑战性的问题,我们只从几个闭源的商业系统中看到了一些令人满意的结果。lyrics2song 的挑战主要在于:音乐的长上下文性质音乐信号与其他信号(语音、音频效果)相比的复杂性扭曲的语言内容和缺乏并行数据(歌词-音频对)。原创 2025-02-26 22:03:45 · 1391 阅读 · 0 评论 -
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。
去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。一个模型可完成多项任务:PaliGemma 2 mix 可以解决原创 2025-02-26 22:02:32 · 699 阅读 · 0 评论 -
Animate Anyone 2来了!角色动画与环境之间更具互动性,动画真实感和一致性更高。
最近基于扩散模型的角色图像动画方法(例如 Animate Everyone)在生成一致且可推广的角色动画方面取得了重大进展。然而,这些方法无法在角色和其环境之间建立合理的关联。为了解决这一限制,我们推出了 Animate Everyone 2,旨在通过环境可供性为角色制作动画。除了从源视频中提取运动信号外,我们还捕获环境表示作为条件输入。环境被表述为排除角色的区域,我们的模型生成角色来填充这些区域,同时保持与环境上下文的一致性。我们提出了一种与形状无关的掩码策略,可以更有效地描述角色与环境之间的关系。原创 2025-02-26 22:01:43 · 972 阅读 · 0 评论 -
顶刊TPAMI 2025 | 北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源!
陈斌:北京大学信息工程学院博士生,主要研究方向是图像压缩感知与超分辨率。张振宇:北京大学信息工程学院硕士生,主要研究方向是图像重建。李玮琦:北京大学信息工程学院博士生,主要研究方向是图像压缩感知与超分辨率。赵琛:沙特阿卜杜拉国王科技大学(KAUST)的研究科学家,图像与视频理解实验室(IVUL)视频分析课题组组长。她首次提出了可逆化预训练神经网络方法,实现了大型预训练模型的极低显存微调。她在这一领域的代表工作包括Re2TAL(CVPR 2023)、Dr2Net (CVPR 2024)等。原创 2025-02-26 22:00:57 · 853 阅读 · 0 评论 -
探索AI新前沿,CoT推理赋能文生图!港中文首次提出文生图的o1推理和inference scaling新范式
数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。论文重点关注三种 CoT 推理技术:扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)通过直接偏好优化 (DPO)调整模型偏好整合这些技术以达到互补效果结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能。原创 2025-02-26 22:00:14 · 517 阅读 · 0 评论 -
CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。
CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性:在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机,以及对渲染帧进行直观的布局控制。CineMaster分两个阶段运行:第一阶段:设计了一个交互式工作流程,允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。第二阶段:这些控制信号(包括渲染的深度图、相机轨迹和对象类别标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。原创 2025-02-26 21:59:20 · 519 阅读 · 0 评论 -
阿里提出文生卡通新方法Textoon:一分钟内生成丰富多彩、可交互的Live2D格式角色。
2D 卡通风格是数字角色创作中一种重要的艺术形式,尤其受到年轻观众的欢迎。虽然数字人技术的进步促进了对逼真的数字人和 3D 角色的广泛研究,但交互式 2D 卡通角色受到的关注相对较少。与需要复杂构造和资源密集型渲染的 3D 卡通角色不同,广泛使用的 2D 卡通角色格式 Live2D 提供了一种更高效的替代方案,它允许以模拟 3D 运动的方式为 2D 角色制作动画,而无需构建完整的 3D 模型。此外,Live2D 采用轻量级 HTML5 (H5) 渲染,提高了可访问性和效率。原创 2025-02-26 21:58:31 · 688 阅读 · 0 评论 -
VidSketch:具有扩散控制的手绘草图驱动视频生成
随着生成式人工智能的进步,先前研究已经实现了从手绘草图生成唯美图像的任务,满足了大众对于绘画的需求。但这些方法局限于静态图像,缺乏对手绘草图生成视频动画的控制能力。针对这一问题,论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法,弥合了普通用户和专业艺术家之间的鸿沟。具体而言,该方法引入了一种基于级别的草图控制策略,在生成过程中自动调整草图的引导强度,以适应具有不同绘画水平的用户。原创 2025-02-26 21:57:38 · 1064 阅读 · 0 评论 -
清华大学出品《DeepSeek 从入门到精通》完整版手册下载和使用教程。
分享一份由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写出品的《DeepSeek 从入门到精通》手册。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开,帮助用户从入门到精通DeepSeek的使用。全方位带大家从入门到精通。内容讲得非常详细,质量比网上众多教程高出不少,值得一看。原创 2025-02-26 21:56:28 · 1341 阅读 · 0 评论 -
DeepSeek开启大模型将开启免费潮?ChatGPT和文心一言相继宣布全面免费开放!
随着DeepSeek等开源AI模型的兴起,全球AI产业正经历深刻变革。ChatGPT和百度文心一言相继宣布全面免费开放,这一举措将极大地推动人工智能技术的普及和应用,进一步加速产业的发展和创新。文心一言用户规模已达4.3亿,日均调用量超过15亿次,展现出强大的市场影响力和用户基础。同时,百度计划发布下一代人工智能模型Ernie 5.0,将在多模态能力方面实现重大增强,为用户提供更加智能、高效的对话交互体验。随着这些免费AI模型的推出,全球AI产业将迎来更加广阔的发展前景。原创 2025-02-26 21:55:31 · 527 阅读 · 0 评论 -
电影级质量和动态运动的视频生成框架Magic Mirror,利用视频扩散模型生成合成身份配对的视频数据
Magic Mirror 是一个用于生成具有电影级质量和动态运动的身份保留视频的框架。虽然视频扩散模型的最新进展在文本到视频生成方面表现出了令人印象深刻的能力,但在产生自然运动的同时保持一致的身份仍然具有挑战性。以前的方法要么需要针对个人进行微调,要么难以平衡身份保留与运动多样性。Magic Mirror基于视频扩散变换器,引入了三个关键组件:双分支面部特征提取器,可同时捕获身份和结构特征;具有条件自适应规范化的轻量级跨模态适配器,可实现有效的身份集成;结合合成身份对和视频数据的两阶段训练策略。原创 2025-02-26 21:54:53 · 647 阅读 · 0 评论 -
深入解读CrossFaceID:专为面部定制优化的高质量数据集,解锁面部定制新境界
在当今的数字时代,面部定制技术在娱乐、虚拟现实和社交媒体等领域发挥着越来越重要的作用。然而,如何在保证面部识别准确性的同时,实现多样化的面部定制,一直是业界面临的重要挑战。CrossFaceID 是首个大规模、高质量且公开可用的数据集,专门用于提高 FaceID 定制模型的面部修改能力。CrossFaceID是一个大型高质量且公开可用的数据集,旨在提升FaceID定制化模型的面部修改能力。原创 2025-02-26 21:54:03 · 717 阅读 · 0 评论 -
ICIR2025 | CubeDiff:重新利用基于扩散的图像模型来生成360°全景图
论文介绍了一种从文本提示或图像生成 360° 全景图的新方法。该方法利用 3D 生成方面的最新进展,采用多视图扩散模型来联合合成立方体贴图的六个面。与以前依赖于处理等距矩形投影或自回归生成的方法不同,提出的方法将每个面视为标准透视图像,简化了生成过程并支持使用现有的多视图扩散模型。论文证明这些模型可以适应生成高质量的立方体贴图,而无需对应感知注意层。该模型允许细粒度的文本控制,生成高分辨率全景图并远远超出其训练集,同时在质量和数量上都实现了最先进的结果。原创 2025-02-14 22:21:50 · 448 阅读 · 0 评论 -
IC-Portrait:打造逼真个性化肖像的新纪元!
IC-Portrait框架为个性化肖像生成提供了新的解决方案,通过光照感知拼接和视图一致性适应两大设计,实现了几乎无损的身份特征保留和光照不变性的肖像生成。这一创新性的框架不仅解决了个性化肖像生成中的诸多难题,还为数字内容创作、虚拟形象等领域带来了新的可能。原创 2025-02-14 22:21:13 · 554 阅读 · 0 评论 -
Qwen2-VL 的重大省级,Qwen 发布新旗舰视觉语言模型 Qwen2.5-VL
Qwen2.5-VL 是 Qwen 的新旗舰视觉语言模型,也是上一代 Qwen2-VL 的重大飞跃。原创 2025-02-14 22:20:03 · 2146 阅读 · 0 评论 -
腾讯发布混元-3D 2.0: 首个开源高质3D-DiT生成大模型
2.0模型将几何和纹理生成解耦,采用了几何大模型和纹理大模型的分步生成方式,使得几何结构更加精致,纹理色彩更加丰富Tencent Hunyuan3D-2.0 是一个强大的大规模 3D 资产创建系统,能够生成高质量的3D 资产。该生成模型由两个主要组件组成:几何生成大模型和纹理生成大模型。几何生成大模型基于可扩展的扩散Transformer架构,旨在创建符合特定条件的几何形状,为各种下游应用奠定坚实基础。原创 2025-02-14 22:18:23 · 1186 阅读 · 0 评论 -
MoMask:可将文本描述作为输入并生成相应的高质量人体运动动作
人体运动生成是生成式计算机视觉领域的一个重要研究方向,广泛应用于电影制作、视频游戏、AR/VR 和人机交互。当前的方法主要利用基于扩散的生成模型或自回归模型进行文本到运动的生成。然而,它们面临两个重大挑战:生成过程耗时,对游戏、机器人操控和其他在线设置等实时应用构成重大障碍。这些方法通常学习由文本引导的相对运动表示,因此很难生成具有精确关节级控制的运动序列。这些挑战严重阻碍了人体运动生成技术的进步,并限制了其在现实世界中的应用。为了解决这一问题,论文提出了一个由两个关键组件组成的简单而有效的架构。原创 2025-02-09 21:31:19 · 596 阅读 · 0 评论 -
港中文&腾讯提出可穿戴3D资产生成方法BAG,可自动生成服装和配饰等3D资产如,并适应特定的人体模型。
虽然最近的进展在一般3D形状生成模型方面取得了显着进展,但利用这些方法自动生成可穿戴3D资产的挑战仍未被探索。为此,我们提出了BAG,一种与身体对齐的资产生成方法,用于输出3D可穿戴资产,可以在给定的3D人体上自动穿戴。这是通过使用人体形状和姿态信息来控制3D生成过程来实现的。具体而言,我们首先建立了一个通用的单图像到一致的多视图图像扩散模型,并在大型Objaverse数据集上进行训练,以实现多样性和泛化性。然后,我们训练一个控制网来引导多视图生成器生成与身体对齐的多视图图像。原创 2025-02-09 21:30:43 · 1094 阅读 · 0 评论 -
AIGC Studio的新年祝福 「感谢一路同行,2025一起解锁AIGC的更多惊喜!」
我们也建立的公众号的官方读者交流群,新的一年,公众号将继续深耕AIGC前沿知识与应用,为大家带来更多有趣、实用的内容。这一年,我们共同探索了AIGC的无限可能,分享了无数有趣、前沿的内容。无论是技术的突破,还是灵感的碰撞,都希望AIGC Studio能成为你们探索AI世界的一扇窗,带给大家更多启发与乐趣。新的一年祝大家头发都密,睡眠良好,财富自由,情绪稳定,每天收获double开心~原创 2025-02-09 21:30:00 · 229 阅读 · 0 评论 -
StochSync:可在任意空间中生成360°全景图和3D网格纹理
我们提出了一种名为 StochSync 的方法,用于生成任意空间中的图像——例如 360°全景图或 3D 表面上的纹理——该方法利用了一个预训练的图像扩散模型。主要的挑战在于弥合扩散模型理解的二维图像与图像生成的目标空间之间的差距。与那些在缺乏强条件或缺乏精细细节的情况下难以取得成效的方法不同,StochSync 结合了扩散同步和得分蒸馏采样的优势,即使在条件较弱的情况下也能有效运行。实验表明 StochSync 比之前的基于微调的方法表现更出色,尤其是在 360°全景图生成方面。原创 2025-02-09 21:28:58 · 636 阅读 · 0 评论 -
使用阿里云 PAI 平台云上一键部署 DeepSeek-V3 模型
DeepSeek-V3 是 DeepSeek 发布的 MoE(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个 token 激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了 MLA(Multi-head Latent Attention)和 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标,以提升性能。原创 2025-02-09 21:28:27 · 564 阅读 · 0 评论 -
DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程,附模型和工作流下载。
今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程,包含ComfyUI安装,模型下载,工作流下载等,欢迎大家一起交流学习,也欢迎添加公众号小助手加入读者交流群,一起探索AIGC好玩的应用。Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型,同时具有图像理解和生成的能力。ComfyUI 的 Janus-Pro 节点是一个统一的多模态理解和生成框架。转载 2025-02-09 21:27:52 · 2606 阅读 · 0 评论 -
DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!
中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。原创 2025-02-09 21:27:13 · 1895 阅读 · 0 评论