
AIGC前沿
文章平均质量分 78
AIGC前沿
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
图像定制大一统?字节提出DreamO,支持人物生成、 ID保持、虚拟试穿、风格迁移等多项任务,有效解决多泛化性冲突。
字节跳动推出的DreamO是一个创新的统一图像定制框架,它基于预训练的DiT模型,通过训练少量附加参数来实现多种复杂的图像定制任务,如人物生成、ID保持、虚拟试穿和风格迁移等。DreamO通过特征路由约束和渐进式训练策略,增强了图像的一致性和保真度,并有效解决了多条件场景下的解耦问题。该框架还引入了占位符策略,以建立文本描述与条件图像之间的对应关系。实验结果显示,DreamO在多种图像定制任务中均表现出高质量和灵活性,现已支持在消费级GPU上进行试用。DreamO的设计不仅提升了图像定制的效率和质量,还降低原创 2025-05-18 21:10:17 · 724 阅读 · 0 评论 -
字节DreamFit 虚拟试衣:任意服装随心试,多风格人体模特一键匹配生成,轻量级即插即用!
字节跳动推出的DreamFit是一款创新的虚拟试衣框架,它结合了轻量级的任何服装编码器,专为以服装为中心的人类生成设计。DreamFit的三大优势包括:轻量训练,仅需8340万可训练参数;能够试穿任意风格的服装;以及即插即用的特性,兼容各种社区插件。该框架通过自适应注意力和LoRA模块显著降低模型复杂度,并利用预训练的大型多模态模型(LMM)提升生成质量。DreamFit在公开和内部基准测试中表现出色,超越了现有方法,展示了其在以服装为中心的人体生成领域的领先优势。相关资源包括论文、代码、模型和工作流,均可原创 2025-05-18 21:09:33 · 627 阅读 · 0 评论 -
谷歌提出图像灯光编辑方法LightLab,只要一张图+AI,光影效果全搞定!
谷歌推出的LightLab是一种基于扩散模型的技术,旨在实现对单张图像中光源的细粒度和参数化控制。该方法能够调整可见光源的强度和颜色、环境光照的强度,并可在场景中插入虚拟光源。LightLab通过显式的参数化控制,生成物理上合理的阴影和环境光效应,从而提供了一种高质量的光照编辑解决方案。该技术的主要贡献在于有效地微调和调节扩散模型,使用户能够进行复杂且连续的照明编辑。通过结合真实和合成数据,LightLab在物理合理性和用户满意度方面均优于先前的研究成果,展示了基于物理的图像编辑的潜力。原创 2025-05-18 21:08:02 · 693 阅读 · 0 评论 -
谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式
BLIP3-o是一个创新的多模态模型,它结合了自回归模型的推理能力和扩散模型的生成能力,通过扩散语义丰富的CLIP图像特征,实现了高效的图像理解和生成。该模型完全开源,包括训练数据、模型权重和代码,支持多种任务如文本到图像生成、图像到文本理解等。BLIP3-o在多个基准测试中表现出色,其设计采用了CLIP特征扩散和顺序预训练策略,有效提升了模型的训练效率和生成质量。此外,作者还发布了一个高质量的指令调整数据集BLIP3o-60k,进一步增强了模型的性能。BLIP3-o的推出为多模态模型的研究和应用提供了新的原创 2025-05-18 21:07:11 · 957 阅读 · 0 评论 -
SECERN AI提出3D生成方法SVAD!单张图像合成超逼真3D Avatar!
SECERNAI提出的SVAD方法通过视频扩散生成合成训练数据,结合身份保留和图像恢复模块,优化数据以训练3D高斯分布(3DGS)虚拟形象。该方法在保持身份一致性和精细细节方面优于现有的单张图像方法,并具备实时渲染能力。SVAD克服了传统3DGS方法对密集训练数据的依赖,通过单幅图像输入生成高质量、可动画化的3D虚拟形象。实验表明,SVAD在多个指标上优于基线模型,但面临背景分割不准确、复杂服装纹理处理困难及高计算需求等挑战。未来工作将优化对不同服装类型的处理和计算性能。原创 2025-05-17 12:32:51 · 479 阅读 · 0 评论 -
6秒音频即可克隆AI语音!FLOAT数字人生成语音/口型/表情,情感同步超惊艳,文中附工作流。
FLOAT是一种创新的音频驱动说话肖像视频生成方法,它通过流匹配技术提高了唇形同步质量和生成速度。该方法能够处理分布外数据,生成逼真的说话肖像视频,并支持情绪转移,即使在语音传达模糊或混合情绪时也能细化情绪。FLOAT基于运动潜在自编码器构建,通过流匹配生成音频调节的说话肖像运动潜在表征,并加入语音驱动的情绪标签以增强自然度。与最先进的非扩散和基于扩散的方法相比,FLOAT在视觉质量、运动保真度和效率方面表现出色。该方法的提出解决了基于扩散的说话肖像视频生成方法在时间一致性视频生成和快速采样方面的挑战。原创 2025-05-17 12:31:39 · 617 阅读 · 0 评论 -
AI Agent 孵化器?CAMEL-AI框架介绍,一文带你读懂背后的逻辑。
🐫 CAMEL 是一个致力于寻找代理扩展规律的开源社区。我们相信,大规模研究这些代理可以深入了解它们的行为、能力和潜在风险。为了促进该领域的研究,我们实现并支持各种类型的代理、任务、提示、模型和模拟环境。原创 2025-03-09 12:08:47 · 674 阅读 · 0 评论 -
Manus平替来了!CAMEL-AI开源OWL,开源框架中排名第一,上线一天获得3.3K stars!
OWL 在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名第一!OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。具体可以看公众号今天推送的第二篇文章~OWL的愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。3月7号OWL在GitHub上开源了代码,一天就获得3.3k stars!原创 2025-03-09 12:08:14 · 2213 阅读 · 0 评论 -
OpenManus:5个人三小时复刻开源版Manus,不需要邀请码,人人可用,GitHub 8k+ star!
Manus 令人难以置信,但 OpenManus 可以在没有邀请码的情况下实现任何想法!OpenManus团队来自MetaGPT,团队成员只用了1个小时就完成了核心系统,整体也只用了3个小时。每个人都可以使用OpenManus享受自己的代理!目前已经8k+star了!核心作者梁新兵介绍,OpenManus的火速上线,来源于MetaGPT积累下的技术沉淀。昨天晚上作者也在Datewhale上进行了一次分享,分享了自己在OpenManus上的工作。以下是作者分享的一些截图,有没有昨晚一起看直播的小伙伴~原创 2025-03-09 12:07:04 · 547 阅读 · 0 评论 -
Manus:通用AI Agent的崛起,2025年的科技新星?
Manus是全球首款真正意义上的通用AI Agent,它能够独立思考、规划并执行复杂任务,直接交付完整成果。从发布的视频演示来看,Manus在接到用户指令后可以直接操作电脑完成一系列报告撰写、表格制作等工作,并在最后导出符合用户需求的产品。一起见证国产AI崛起!原创 2025-03-09 12:05:14 · 1418 阅读 · 0 评论 -
阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!
I2V-14B 模型的表现超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 性能。它能够根据输入的文本和图像生成展示复杂视觉场景和运动模式的视频,包括 480P 和 720P 分辨率的模型。原创 2025-03-09 12:04:25 · 2280 阅读 · 0 评论 -
ComfyUI | 背景移除插件:ComfyUI-RMBG,支持物体、人脸、服装和时尚元素的精准分割
分享 GitHub 上一款强大的 ComfyUI 背景移除插件:ComfyUI-RMBG。支持物体、人脸、服装和时尚元素的精准分割,整合了多种先进模型包括 RMBG-2.0、INSPYRENET、BEN、BEN2、BiRefNet 模型、SAM 和 GroundingDINO。还支持批量处理、可自由调整敏感度、分辨率、模糊度等参数。可通过 ComfyUI-Manager 搜索安装,或直接克隆到 custom_nodes 文件夹中,首次使用时会自动下载所需模型。原创 2025-03-09 12:03:35 · 649 阅读 · 0 评论 -
免费才是王者?Grok 已冲到美区榜一!XAI 发布Grok3的详细介绍文章。
在 200 多万人的见证下,马斯克的 AI 公司 xAI 正式推出 Grok 3! 果然,谁能让用户免费用好模型,谁就能起量。 目前,Grok 应用现在已经是美区榜一了。XAI 发布了 Grok3 的详细介绍文章里面有各个功能的介绍和基准测试结果x.ai/blog/grok-3Grok 3是我们迄今为止最先进的模型:将强大的推理能力与广泛的预训练知识相结合。Grok 3 在我们的 Colossus 超级集群上进行训练,其计算能力是之前最先进模型的 10 倍,在推理、数学、编码、世界知识和指令遵循任务方面表现原创 2025-03-03 21:08:03 · 1553 阅读 · 0 评论 -
港科大提出开放全曲音乐生成基础模型YuE:可将歌词转换成完整歌曲
从给定的歌词生成整首歌曲音乐音频称为 lyrics2song。虽然基于文本的音乐生成模型已在非人声音乐的短片段上产生了高质量的结果,但生成包含人声和伴奏部分的长达数分钟的完整歌曲仍然是一个具有挑战性的问题,我们只从几个闭源的商业系统中看到了一些令人满意的结果。lyrics2song 的挑战主要在于:音乐的长上下文性质音乐信号与其他信号(语音、音频效果)相比的复杂性扭曲的语言内容和缺乏并行数据(歌词-音频对)。原创 2025-02-26 22:03:45 · 1391 阅读 · 0 评论 -
谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。
去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。一个模型可完成多项任务:PaliGemma 2 mix 可以解决原创 2025-02-26 22:02:32 · 699 阅读 · 0 评论 -
Animate Anyone 2来了!角色动画与环境之间更具互动性,动画真实感和一致性更高。
最近基于扩散模型的角色图像动画方法(例如 Animate Everyone)在生成一致且可推广的角色动画方面取得了重大进展。然而,这些方法无法在角色和其环境之间建立合理的关联。为了解决这一限制,我们推出了 Animate Everyone 2,旨在通过环境可供性为角色制作动画。除了从源视频中提取运动信号外,我们还捕获环境表示作为条件输入。环境被表述为排除角色的区域,我们的模型生成角色来填充这些区域,同时保持与环境上下文的一致性。我们提出了一种与形状无关的掩码策略,可以更有效地描述角色与环境之间的关系。原创 2025-02-26 22:01:43 · 972 阅读 · 0 评论 -
顶刊TPAMI 2025 | 北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源!
陈斌:北京大学信息工程学院博士生,主要研究方向是图像压缩感知与超分辨率。张振宇:北京大学信息工程学院硕士生,主要研究方向是图像重建。李玮琦:北京大学信息工程学院博士生,主要研究方向是图像压缩感知与超分辨率。赵琛:沙特阿卜杜拉国王科技大学(KAUST)的研究科学家,图像与视频理解实验室(IVUL)视频分析课题组组长。她首次提出了可逆化预训练神经网络方法,实现了大型预训练模型的极低显存微调。她在这一领域的代表工作包括Re2TAL(CVPR 2023)、Dr2Net (CVPR 2024)等。原创 2025-02-26 22:00:57 · 853 阅读 · 0 评论 -
探索AI新前沿,CoT推理赋能文生图!港中文首次提出文生图的o1推理和inference scaling新范式
数学中的 LLM 和 LMM 广泛探索了思路链 (CoT) 推理。然而,这种策略是否可以应用于验证和强化图像生成场景仍是一个悬而未决的问题。在这个项目首次全面研究了 CoT 推理增强自回归图像生成的潜力。论文重点关注三种 CoT 推理技术:扩展测试时间计算以进行验证(ORM、PRM 以及我们提出的 PARM 和 PARM++)通过直接偏好优化 (DPO)调整模型偏好整合这些技术以达到互补效果结果表明这些方法可以有效地调整和组合,以显著提高图像生成性能。原创 2025-02-26 22:00:14 · 517 阅读 · 0 评论 -
阿里提出文生卡通新方法Textoon:一分钟内生成丰富多彩、可交互的Live2D格式角色。
2D 卡通风格是数字角色创作中一种重要的艺术形式,尤其受到年轻观众的欢迎。虽然数字人技术的进步促进了对逼真的数字人和 3D 角色的广泛研究,但交互式 2D 卡通角色受到的关注相对较少。与需要复杂构造和资源密集型渲染的 3D 卡通角色不同,广泛使用的 2D 卡通角色格式 Live2D 提供了一种更高效的替代方案,它允许以模拟 3D 运动的方式为 2D 角色制作动画,而无需构建完整的 3D 模型。此外,Live2D 采用轻量级 HTML5 (H5) 渲染,提高了可访问性和效率。原创 2025-02-26 21:58:31 · 688 阅读 · 0 评论 -
VidSketch:具有扩散控制的手绘草图驱动视频生成
随着生成式人工智能的进步,先前研究已经实现了从手绘草图生成唯美图像的任务,满足了大众对于绘画的需求。但这些方法局限于静态图像,缺乏对手绘草图生成视频动画的控制能力。针对这一问题,论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法,弥合了普通用户和专业艺术家之间的鸿沟。具体而言,该方法引入了一种基于级别的草图控制策略,在生成过程中自动调整草图的引导强度,以适应具有不同绘画水平的用户。原创 2025-02-26 21:57:38 · 1064 阅读 · 0 评论 -
清华大学出品《DeepSeek 从入门到精通》完整版手册下载和使用教程。
分享一份由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写出品的《DeepSeek 从入门到精通》手册。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开,帮助用户从入门到精通DeepSeek的使用。全方位带大家从入门到精通。内容讲得非常详细,质量比网上众多教程高出不少,值得一看。原创 2025-02-26 21:56:28 · 1341 阅读 · 0 评论 -
DeepSeek开启大模型将开启免费潮?ChatGPT和文心一言相继宣布全面免费开放!
随着DeepSeek等开源AI模型的兴起,全球AI产业正经历深刻变革。ChatGPT和百度文心一言相继宣布全面免费开放,这一举措将极大地推动人工智能技术的普及和应用,进一步加速产业的发展和创新。文心一言用户规模已达4.3亿,日均调用量超过15亿次,展现出强大的市场影响力和用户基础。同时,百度计划发布下一代人工智能模型Ernie 5.0,将在多模态能力方面实现重大增强,为用户提供更加智能、高效的对话交互体验。随着这些免费AI模型的推出,全球AI产业将迎来更加广阔的发展前景。原创 2025-02-26 21:55:31 · 527 阅读 · 0 评论 -
电影级质量和动态运动的视频生成框架Magic Mirror,利用视频扩散模型生成合成身份配对的视频数据
Magic Mirror 是一个用于生成具有电影级质量和动态运动的身份保留视频的框架。虽然视频扩散模型的最新进展在文本到视频生成方面表现出了令人印象深刻的能力,但在产生自然运动的同时保持一致的身份仍然具有挑战性。以前的方法要么需要针对个人进行微调,要么难以平衡身份保留与运动多样性。Magic Mirror基于视频扩散变换器,引入了三个关键组件:双分支面部特征提取器,可同时捕获身份和结构特征;具有条件自适应规范化的轻量级跨模态适配器,可实现有效的身份集成;结合合成身份对和视频数据的两阶段训练策略。原创 2025-02-26 21:54:53 · 647 阅读 · 0 评论 -
深入解读CrossFaceID:专为面部定制优化的高质量数据集,解锁面部定制新境界
在当今的数字时代,面部定制技术在娱乐、虚拟现实和社交媒体等领域发挥着越来越重要的作用。然而,如何在保证面部识别准确性的同时,实现多样化的面部定制,一直是业界面临的重要挑战。CrossFaceID 是首个大规模、高质量且公开可用的数据集,专门用于提高 FaceID 定制模型的面部修改能力。CrossFaceID是一个大型高质量且公开可用的数据集,旨在提升FaceID定制化模型的面部修改能力。原创 2025-02-26 21:54:03 · 717 阅读 · 0 评论 -
Qwen2-VL 的重大省级,Qwen 发布新旗舰视觉语言模型 Qwen2.5-VL
Qwen2.5-VL 是 Qwen 的新旗舰视觉语言模型,也是上一代 Qwen2-VL 的重大飞跃。原创 2025-02-14 22:20:03 · 2146 阅读 · 0 评论 -
腾讯发布混元-3D 2.0: 首个开源高质3D-DiT生成大模型
2.0模型将几何和纹理生成解耦,采用了几何大模型和纹理大模型的分步生成方式,使得几何结构更加精致,纹理色彩更加丰富Tencent Hunyuan3D-2.0 是一个强大的大规模 3D 资产创建系统,能够生成高质量的3D 资产。该生成模型由两个主要组件组成:几何生成大模型和纹理生成大模型。几何生成大模型基于可扩展的扩散Transformer架构,旨在创建符合特定条件的几何形状,为各种下游应用奠定坚实基础。原创 2025-02-14 22:18:23 · 1186 阅读 · 0 评论 -
使用阿里云 PAI 平台云上一键部署 DeepSeek-V3 模型
DeepSeek-V3 是 DeepSeek 发布的 MoE(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个 token 激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了 MLA(Multi-head Latent Attention)和 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标,以提升性能。原创 2025-02-09 21:28:27 · 564 阅读 · 0 评论 -
DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程,附模型和工作流下载。
今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程,包含ComfyUI安装,模型下载,工作流下载等,欢迎大家一起交流学习,也欢迎添加公众号小助手加入读者交流群,一起探索AIGC好玩的应用。Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型,同时具有图像理解和生成的能力。ComfyUI 的 Janus-Pro 节点是一个统一的多模态理解和生成框架。转载 2025-02-09 21:27:52 · 2606 阅读 · 0 评论 -
DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!
中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。原创 2025-02-09 21:27:13 · 1895 阅读 · 0 评论 -
NVIDIA发布GeForce RTX 50 系列,售价549美元起
2025 CES消费电子展(1月7日至10日,美国拉斯维加斯)正式开幕。北京时间1月7日 (星期二)上午10:30,NVIDIA举办主题演讲,CEO黄仁勋担任主讲。正式发布了全新的RTX 50系列显卡!一月下旬上市。同时公布了各版本的售价。RTX 5090:1999美元(约14651元)RTX 5080:999美元(约7321元)RTX 5070 Ti:749美元(约5489元)RTX 5070:549美元(约4023元)原创 2025-01-10 22:17:25 · 1130 阅读 · 0 评论 -
Google发布图像生成新工具Whisk:无需复杂提示词,使用图像和人工智能将想法可视化并重新混合
Whisk 是 Google 实验室最新的生成图像实验,专注于快速视觉构思,而无需深入理解提示!只需添加几张图像作为方向参考(场景、主题、风格),Whisk 就会推荐一些图像供您继续完善。Whisk 由 Google 的 Gemini(具有视觉理解功能的语言模型)和 Imagen 3(生成图像模型)协同工作提供支持。将图画变成毛绒玩具?制作史诗般的节日贺卡?制作漂亮的心情板?或者故事的开头……原创 2025-01-10 22:16:12 · 933 阅读 · 0 评论 -
2024 AI TimeLine 回顾
2024年,生成式人工智能已远远超越了仅仅作为一个流行词的范畴,它在实际应用和技术创新方面取得了显著进展,成为推动社会进步和产业变革的重要力量。原创 2025-01-10 22:14:18 · 1463 阅读 · 0 评论 -
DeepSeek-V3 正式发布,已在网页端和 API 全面上线,性能领先,速度飞跃。
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。原创 2025-01-05 21:05:55 · 10991 阅读 · 0 评论 -
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。QVQ-72B-Preview在多项基准测试中均取得了优异表现。在多模态大规模多任务理解 (MMMU) 基准测试中,其得分高达 70.3%,展现了 QVQ 在多学科理解和推理方面的强大能力。原创 2025-01-05 21:04:35 · 375 阅读 · 0 评论 -
万众期待,谷歌正式发布 Gem)ini 1.0 ,包含三个版本:Ultra、Pro 和 Nano。
Gemini Ultra——最大、最有能力的模型,适用于高度复杂的任务。Gemini Pro——可扩展各种任务的最佳模型。Demis Hassabis称Gemini是从头开始构建的多模态模型,可以涵盖和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。今天是 Gemini 发布一周年,万众期待,谷歌正式发布 Gemini 1.0 ,包含三个版本:Ultra、Pro 和 Nano。原生多模态,即从一开始就针对不同模态进行了预训练,然后使用额外的多模态数据对其进行微调。原创 2024-12-07 10:16:55 · 586 阅读 · 0 评论 -
ICLR 2025满分论文,ControlNet作者新作IC-light,控制生成图像照明,代码模型已开源。
罕见!ICLR 2025 惊现了一篇满分论文,4个审稿人同时打出了[10,10,10, 10],这是什么炸裂的存在?!这就是ControlNet的作者张吕敏,继ControlNet后又提出了IC-light,用来操控图像生成时的光照。先来回顾一下敏神之前的优秀工作~由于Stable Diffusion用于图像生成中无法精确控制图像细节,往往需要多次抽卡。不管是构图、动作、面部特征还是空间关系,SD生成的结果依然不可控制。原创 2024-12-01 23:25:05 · 1156 阅读 · 0 评论 -
多模态图像生成模型Qwen2vl-Flux,利用Qwen2VL的视觉语言理解能力增强FLUX,可集成ControlNet
Qwen2vl-Flux 是一种先进的多模态图像生成模型,它利用 Qwen2VL 的视觉语言理解能力增强了 FLUX。该模型擅长根据文本提示和视觉参考生成高质量图像,提供卓越的多模态理解和控制。让 FLUX 的多模态图像理解和提示词理解变得很强。Qwen2vl-Flux有以下特点:无文本图像直接基于图像生成图像;类似 IPA 将图片和文字结合生成对应风格的图片;GridDot控制面板,细致的风格提取;ControlNet 集成,支持 Depth 和 canny。原创 2024-11-28 23:15:20 · 854 阅读 · 0 评论 -
CatVton升级版?CatVton-Flux:AI虚拟试衣方案新选择。
之前的文章中已经和大家介绍过虚拟试衣方案CatVton,感兴趣的小伙伴可以点击下面链接阅读~今天给大家介绍的是CatVton-FLUX,它是一种先进的虚拟试穿解决方案,它将 CATVTON(对比外观和拓扑虚拟试穿)与 Flux 填充修复模型相结合,实现逼真、准确的服装传输。该项目还受到了In-Context LoRA的启发,用于提示工程。该模型专为虚拟试穿应用而设计,可让用户直观地看到不同服装穿在人身上的效果。原创 2024-11-28 23:14:27 · 906 阅读 · 0 评论 -
AI图像编辑重大升级!BlackForestLabs 发布FLUX.1 Tools,为创作者提供了更强大的控制能力。
这次发布包括四项新功能:FLUX.1 Fill:最先进的图像填充与扩展模型,结合文本描述和二值掩码,支持对真实和生成图像的编辑与扩展。FLUX.1 Depth:基于深度图进行结构引导编辑,结合输入图像与文本提示,保持结构一致性.FLUX.1 Canny:基于 Canny 边缘提取进行结构引导编辑,支持输入图像与文本提示。FLUX.1 Redux:适配器工具,可混合输入图像与文本提示,实现重新创作。每个工具都推出了两种版本:[Pro] 专业版:性能新标杆。原创 2024-11-23 10:23:25 · 665 阅读 · 0 评论 -
百度发布文心iRAG技术,大模型终于知道如何去掉“AI味儿”了
讲iRAG之前,我们先看看什么是RAG?两年前ChatGPT横空出世,尽管其能力已经足够让人惊艳,但“一本正经地胡说八道”仍然时有出现。这种现象被称为“幻觉”,如果不能把“幻觉”出现的概率降到足够低,大模型就无法真正从[好用]变成[有用]。所以行业为了解决幻觉问题,通用的解决方案是增加RAG(Retrieval-Augmented Generation,检索增强生成)。RAG的基本思想是通过从外部知识库中检索相关信息,并将这些信息作为额外的上下文提供给语言模型,从而增强模型生成文本的能力。原创 2024-11-21 23:03:17 · 1062 阅读 · 0 评论