![](https://img-blog.csdnimg.cn/7336261e041847028fc45726fde5ce16.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
AIGC
文章平均质量分 83
专注AIGC、Diffusion models,Stable Diffusion, Sora等视觉大模型, 分享AIGC最前沿最好玩的应用。
AIGC Studio
计算机专业研究生,人工智能领域优质创者者,研究计算机视觉、深度学习、图像生成、GAN、VAE、Stable Diffusion、Sora、AIGC视觉大模型等,有三维重建、VTK开发、点云处理和医学图像处理等开发经验。曾在滴滴,小米任职算法工程师。
展开
-
手把手教你从零开始构建 AI 视频生成模型
OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经问世或未来将出现的文本转视频模型,是继大型语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在本博客中,我们将从头开始构建一个小规模的文本转视频模型。我们将输入一个文本提示,我们训练过的模型将根据该提示生成视频。本博客将涵盖从理解理论概念到编码整个架构并生成最终结果的所有内容。由于我没有高端的 GPU,因此我编写了小规模架构。原创 2024-07-06 10:36:52 · 316 阅读 · 0 评论 -
WebDesignAgent:一键构建你自己想要的网站
今天给大家介绍一个可以帮助你构建一系列网站的智能体WebDesignAgent。那么,回答第一个问题,什么是WebDesignAgent?WebDesignAgnet 是一个自主代理,可以帮助您建立一系列网站。它支持使用以下方式构建网页:文本→网站:轻松将您的文本描述转换为功能齐全、设计精美的网站。图像→网站:只需上传您的图像,即可看到它们无缝集成到令人惊叹的网站中。视觉线索→网站:将您的视觉布局带到网站。混合设计:无缝结合文本、图像和其他视觉线索,以创建令人惊叹、具有凝聚力的网页设计。原创 2024-07-06 10:36:00 · 258 阅读 · 0 评论 -
InstantStyle-Plus:风格转移与内容保留在文本到图像的生成
风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:风格,关注图像的美学特征;空间结构,涉及视觉元素的几何排列和组成;语义内容,捕捉图像的概念意义。原创 2024-07-06 09:16:08 · 735 阅读 · 0 评论 -
CLAY或许是今年最值得期待的3D生成模型,号称质量最好+布线最好+支持的输入模态最多+支持材质生成。
在数字创意领域,我们凭借想象力创造复杂 3D 世界的潜力常常受到现有数字工具的限制,这些工具需要大量的专业知识和努力。为了缩小这种差距,我们引入了 CLAY,这是一种 3D 几何和材料生成器,旨在毫不费力地将人类的想象力转化为复杂的 3D 数字结构。CLAY 支持经典的文本或图像输入以及来自各种基元(多视图图像、体素、边界框、点云、隐式表示等)的 3D 感知控件。原创 2024-06-30 18:29:01 · 1152 阅读 · 0 评论 -
理想汽车提出3DRealCar:首个大规模3D真实汽车数据集
3D 汽车通常用于自动驾驶系统、虚拟/增强现实和游戏。然而,现有的 3D 汽车数据集要么是合成的,要么是低质量的,与高质量的真实世界 3D 汽车数据集存在很大差距,限制了它们在实际场景中的应用。在本文中,我们提出了第一个大规模 3D 真实汽车数据集,称为 3DRealCar,它具有三个独特的特点。高容量:2,500 辆汽车经过 3D 扫描仪的精心扫描,获得具有真实世界尺寸的汽车图像和点云;高质量:每辆汽车平均在 200 个密集的高分辨率 360 度 RGB-D 视图中捕获,从而实现高保真 3D 重建;原创 2024-06-30 18:25:38 · 1024 阅读 · 0 评论 -
Streamer-Sales 销冠 —— 卖货主播大模型来了,一键让你成为销冠!
Streamer-Sales 销冠 —— 卖货主播大模型 是一个能够根据给定的商品特点从激发用户购买意愿角度出发进行商品解说的卖货主播大模型。以其独特的智能魅力,将彻底改变您的购物体验。该模型能深度理解商品特点,以生动、精准的语言为商品量身打造解说词,让每一件商品都焕发出诱人的光彩。无论是细节之处,还是整体效果,都能通过其细腻、独到的解说,激发用户的购买欲望。原创 2024-06-30 18:23:30 · 261 阅读 · 0 评论 -
CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!
在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。原创 2024-06-26 22:34:01 · 553 阅读 · 0 评论 -
字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。
这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:用合成图像替换所有标记的真实图像;扩大我们的教师模型的容量通过大规模伪标记真实图像的桥梁教授学生模型。与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。原创 2024-06-26 22:32:03 · 1043 阅读 · 0 评论 -
阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!
文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:需要根据文本描述准确维护每个参考主题的细节;难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。原创 2024-06-26 22:28:20 · 648 阅读 · 0 评论 -
AI自动生成角色和情节连续的漫画,中山大学&联想提出AutoStudio,可以多轮交互式连续生成并保持主题一致性。
由于尖端的文本转图像 (T2I) 生成模型已经擅长生成出色的单幅图像,因此一项更具挑战性的任务,即多轮交互式图像生成,开始引起相关研究界的关注。此任务要求模型与用户进行多轮交互以生成连贯的图像序列。但是,由于用户可能频繁切换主题,因此当前的努力很难在生成多样化图像的同时保持主题一致性。为了解决这个问题,我们引入了一个无需训练的多智能体框架,称为 AutoStudio。AutoStudio 使用三个基于大型语言模型 (LLM) 的智能体来处理交互,以及一个基于稳定扩散 (SD) 的智能体来生成高质量图像。原创 2024-06-26 22:26:41 · 1477 阅读 · 0 评论 -
上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型
虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。原创 2024-06-22 17:49:34 · 703 阅读 · 0 评论 -
海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!
最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。为实现这一目标,我们做出了以下贡献:创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;原创 2024-06-22 17:48:32 · 734 阅读 · 0 评论 -
Human4DiT:使用 4D Diffusion Transformer 生成自由视角人物视频。
我们提出了一种新的方法,用于从单个图像下在任意观点下产生高质量的时空连贯的人类视频。我们的框架结合了U-NET的优势,以进行准确的状态注入和扩散变压器,以捕获跨观点和时间的全局相关性。核心是级联的4D变压器体系结构,可将注意力跨越跨视图,时间和空间维度分配,从而可以对4D空间进行有效的建模。通过将人类身份,摄像机参数和时间信号注入相应的变压器来实现精确的调理。为了训练该模型,我们策划了一个跨越图像,视频,多视图数据和3D/4D扫描的多维数据集以及多维培训策略。原创 2024-06-20 20:55:41 · 668 阅读 · 0 评论 -
Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术
Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。Meta Chameleon系列模型可将文本和图像作为输入,输出任意文本和图像组合。已发布7B和34B模型的关键组件。发布多词预测预训练语言模型代码,可更高效训练语言模型。原创 2024-06-20 20:53:00 · 878 阅读 · 0 评论 -
超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。
近年来,扩散模型在图像生成方面表现出色。然而,由于生成超高分辨率图像(例如 4096 × 4096)时内存的二次方增加,生成的图像的分辨率通常限制为 1024 × 1024。在这项工作中,我们提出了一种单向块注意机制,可以在推理过程中自适应地调整内存开销并处理全局依赖关系。在此模块的基础上,我们采用 DiT 结构进行上采样,并开发了一个能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明,我们的模型在机器和人工评估中都能在生成超高分辨率图像方面实现 SOTA 性能。原创 2024-06-17 23:05:50 · 712 阅读 · 0 评论 -
复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。
由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。原创 2024-06-17 22:49:05 · 1087 阅读 · 0 评论 -
超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。
最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽管如此,仍然存在两个限制:需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;生成的视频通常时间较短(例如24帧),阻碍了实际应用。为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。原创 2024-06-17 22:47:18 · 1202 阅读 · 0 评论 -
电商领域利器来了!港大&阿里联合提出MimicBrush,对参考图模仿进行零样本图像编辑,万物皆可编辑。
图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。原创 2024-06-15 10:29:47 · 815 阅读 · 0 评论 -
效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测!
快手对标Sora的视频大模型「可灵」来了!早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始人兼首席执行官程一笑曾谈及快手自研大模型的研究及应用进展。可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。原创 2024-06-15 10:26:54 · 266 阅读 · 0 评论 -
文心大模型4.0加持的文心一言工具保姆级使用教程!快点赞收藏起来!
现在科技圈什么最火?那一定是大模型了。如雨后春笋般冒出的大模型,每一个都在争做行业No.1,但你知道现在哪个大模型能力最强?哪个最受人喜欢吗?近日,清华大学发布《SuperBench大模型综合能力评测报告》,从五大方面评测 14 个海内外具有代表性的模型。国内百度的文心一言4.0大模型表现非常亮眼,其中在中文推理、中文语言等评测上,文心一言遥遥领先。在“各大模型安全和价值观表现”中,文心一言4.0更是排行第一,领先于国外的各个大模型!“科技并不是高高在上,而是服务于人民。原创 2024-06-13 08:30:00 · 1975 阅读 · 0 评论 -
Stable Diffusion 3,他来了!文中附最新模型下载地址。
之前和大家介绍过 Stability AI 在 6 月 12 号将会开源 2B 版本的模型-Stable Diffusion 3 Medium。就在现在,他来了!在OpenAI发布Sora后,Stability AI也发布了其最新的模型Stabled Diffusion3, 之前的文章中已经和大家介绍过,感兴趣的小伙伴可以点击上面👆链接阅读。原创 2024-06-12 23:25:11 · 427 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-12 23:20:19 · 380 阅读 · 0 评论 -
突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型
TTS全称:Text To Speech(也就是文本转语音模型)而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。原创 2024-06-12 23:17:08 · 1849 阅读 · 0 评论 -
谷歌发布HyperDreameBooth:单张人像20秒内完成模型训练,速度比DreamBooth快25倍,模型小10000倍
个性化已成为生成式 AI 领域的一个突出方面,它能够合成不同背景和风格的个人,同时保持其身份的高保真度。然而,个性化过程在时间和内存需求方面存在固有的挑战。微调每个个性化模型需要投入大量的 GPU 时间,并且存储每个主题的个性化模型对存储容量的要求很高。为了克服这些挑战,我们提出了HyperDreamBooth - 一个超级网络,能够从一个人的单张图像中高效地生成一小组个性化权重。原创 2024-06-12 23:14:40 · 1070 阅读 · 0 评论 -
阿里中科大推出ViViD: 轻松实现视频换衣,虚拟试衣技术迈向实用化
视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果,而之前基于视频的试穿解决方案只能产生低视觉质量和模糊的结果。在这项工作中,我们提出了 ViViD,这是一个采用强大扩散模型来解决视频虚拟试穿任务的新型框架。具体来说,我们设计了服装编码器来提取细粒度的服装语义特征,引导模型捕捉服装细节并通过提出的注意特征融合机制将其注入目标视频。原创 2024-06-12 23:13:12 · 1102 阅读 · 0 评论 -
ControlNet作者新作Omost 一句话将LLM的编码能力转化为图像生成能力,秒变构图小作文,再也不用为不会写提示词担心了!
近日,ControlNet的作者推出了一个全新的项目—Omost。Omost是一个将LLM的编码能力转化为图像生成能力的项目。对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词,就可以生成非常详细并且空间表现很准确的图片。完美解决新手小白不会写提示词的痛点。现在只需一句超简单的提示词说明意图,Agent就会自己开始“构图”。这个名字Omost有两层含义:每次使用 Omost 后,你的图像几乎就完成了;O意思是omni多模式,most意味着我们想最大限度地利用它。原创 2024-06-12 23:11:18 · 598 阅读 · 0 评论 -
效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测!
快手对标Sora的视频大模型「可灵」来了!早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始人兼首席执行官程一笑曾谈及快手自研大模型的研究及应用进展。可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。原创 2024-06-12 23:07:56 · 494 阅读 · 0 评论 -
苹果WWDC重磅发布的IOS 18、Apple Intelligence背后的技术分析!
Apple Intelligence 由多个功能强大的生成模型组成,这些模型专门用于用户的日常任务,并可以根据用户的当前活动进行动态调整。Apple Intelligence 内置的基础模型已针对用户体验进行了微调,例如编写和优化文本、确定通知的优先级和摘要、为与家人和朋友的对话创建有趣的图像,以及采取应用内操作以简化跨应用交互。图 1:Apple 基础模型的建模概述。原创 2024-06-12 23:05:29 · 801 阅读 · 0 评论 -
北交&字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。
最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“戴耳机的狗”时缺少耳机)。有趣的是,我们注意到微调之前的基础模型表现出将基础概念与其他元素组合的能力(例如,戴耳机的狗),这意味着只有在个性化调整后,组合能力才会消失。受此观察的启发,我们提出了 ClassDiffusion,这是一种简单的技术,它利用语义保存损失在学习新概念时明确调节概念空间。原创 2024-06-12 23:03:28 · 792 阅读 · 0 评论 -
首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!
在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的,模型友好的格式,优化与翻译模型的训练比如seq2seq和text2text。在这个新数据集的基础上,我们提出 SignLLM是第一个多语言手语制作(SLP)模型, 它包括两种新颖的多语言SLP模式,允许从输入文本或提示生成手语手势。两者都是 模式可以使用新的损失和基于强化学习的模块, 通过增强模型自主抽取高质量数据的能力,加快了训练速度。原创 2024-06-06 20:30:15 · 646 阅读 · 0 评论 -
SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。
SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。xinsir 发布的Openpose 和 Scribble 模型质量相当好,尤其是 Openpose。不过只支持姿态不支持面部。再加上前几天的 Anyline 线条预处理器和 Canny 模型。SDXL 的生态在发布快一年的时候成熟了。原创 2024-06-06 20:27:53 · 317 阅读 · 0 评论 -
港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。原创 2024-06-06 20:25:17 · 511 阅读 · 0 评论 -
重磅消息! Stable Diffusion 3将于6月12日开源 2B 版本的模型,文中附候补注册链接。
在OpenAI发布Sora后,Stability AI也发布了其最新的模型Stabled Diffusion3, 之前的文章中已经和大家介绍过,感兴趣的小伙伴可以点击以下链接阅读。Sora是音视频方向,Stabled Diffusion3是图像生成方向,那么两者没有必然的联系,此外二者的核心部分都是采用了Difusion Transformer的方式。原创 2024-06-04 23:00:34 · 497 阅读 · 1 评论 -
突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型
TTS全称:Text To Speech(也就是文本转语音模型)而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。原创 2024-06-04 22:58:30 · 1994 阅读 · 0 评论 -
超牛ComfyUI节点AnyNode来了!要啥功能让AI帮你编写
AnyNode可以使用LLMS来做任何输入的事情,以生成任何类型ComfyUI结点的输出。原创 2024-05-30 22:11:24 · 609 阅读 · 0 评论 -
Chat凉宫春日 Chat-Haruhi-Suzumiya:基于大型语言模型的动漫角色复活项目,提供接近原作语气、个性和剧情的聊天体验,支持零样本角色扮演和RAG角色构造
Chat凉宫春日是模仿凉宫春日等一系列动漫人物,使用近似语气、个性和剧情聊天的语言模型方案。随着凉宫春日-Zero模型的建立,Chat凉宫春日项目将主要包含三个部分,可以接入不同语言模型,包括闭源商用API和Haruhi-Zero模型的推理class,用于管理人物的记忆库和过往的历史信息并进行prompt的构造。使用120k左右量级对话数据得到的开源角色扮演模型,凉宫春日-Zero,方便每个开发者构建自己的人物模型完整的小说抽取方案,以及一个开源可本地部署的对话-动作抽取模型。原创 2024-05-30 22:07:51 · 934 阅读 · 0 评论 -
Facechain最新版本Facecchain-Fact开源,只需1张照片和10秒,就可以生成多种风格个人写真。
对于以人为中心的个性化图像生成,基于适配器的方法通过对人脸数据进行文本到图像的训练来学习编码和对齐输入人脸,实现身份保留的个性化,而无需在推理中进行额外的微调。尽管与输入人脸相比,效率和相似度有所提高,但与没有适配器的基本模型相比,生成的人脸在文本跟随能力、可控性和多样性方面普遍存在明显的性能下降。在Facecchain-Fact中,我们执行身份导向的人脸去噪,而不是人脸导向的图像去噪来进行解耦训练。原创 2024-05-30 22:05:38 · 561 阅读 · 0 评论 -
3D虚拟试穿来了!港大和西北工业提出GaussianVTON,通过多阶段高斯溅射编辑与2D VTON相结合,使用图像作为编辑提示,首次实现2D到3D的无缝过渡。
电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而,以前的研究主要集中在 2D 领域,并且严重依赖大量数据进行训练。3D VTON 的研究主要集中在服装与体形的兼容性上,这是 2D VTON 中广泛涵盖的一个主题。得益于 3D 场景编辑的进步,2D 扩散模型现已通过多视点编辑适应 3D 编辑。在这项工作中,我们提出了 GaussianVTON,这是一种创新的 3D VTON 管道,将高斯溅射 (GS) 编辑与 2D VTON 相结合。原创 2024-05-27 21:29:46 · 632 阅读 · 0 评论 -
大连理工提出CharacterFactory,仅需2.5GB显存训练10分钟,可以在3秒内无限制地端到端地采样出新的一致性角色,可以结合动作、背景、风格等文本提示实现。
文本到图像模型的最新发展为以人为中心的一代开辟了新的领域。然而,这些模型不能直接用于生成具有一致的新生成身份的图像。在本工作中,我们提出了一个字符框架,该框架允许在GANS的潜在空间中对具有一致身份的新字符进行采样,以用于扩散模型。更具体地说,我们把嵌入名字的单词看作是与身份一致的生成任务的基本真相,并训练一个GAN模型来学习从潜伏空间到嵌入空间的映射。另外,我们设计了一个与上下文一致的损失,以确保生成的身份嵌入能够在各种背景下生成与识别一致的图像。原创 2024-05-27 21:27:57 · 978 阅读 · 0 评论 -
AWPortrait1.4更新,人物的生成更加趋近真实感,将SD1.5人像的真实感提升到了一个新的高度
AWPortrait1.4更新,人物的生成更加趋近真实感,将SD1.5人像的真实感提升到了一个新的高度经过5个月,AWPortrait终于迎来了1.4。本次更新基于1.3训练,使得人物的生成更加趋近真实感,将SD1.5人像的真实感提升到了一个新的高度。AWPortrait1.4的人物生成效果很真实。增加了旗袍、汉服等东方元素,更好的棚拍效果及户外效果;优化了close up下的特写人物五官容易造成畸形的情况;可更改人物年龄,比较稳定的输出效果是10-80岁;原创 2024-05-24 21:28:40 · 526 阅读 · 0 评论