自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AIGC Studio:分享AIGC前沿知识和好玩应用,公众号同名。

计算机硕士,人工智能领域优质创作者,从事深度学习、计算机视觉、图像处理相关工作,目前关注于AIGC文生图,图生图,文生视频等方向。曾在滴滴,小米任职算法工程师。

  • 博客(429)
  • 资源 (21)
  • 收藏
  • 关注

原创 一键解锁百变发型!上交联合Tiamat震撼发布Stable-Hair发型移植黑科技!

目前的头发移植方法难以处理多样而复杂的发型,因此限制了它们在现实场景中的适用性。在本文中,我们提出了一种基于扩散的新型头发移植框架Stable-Hair,它可以将各种现实世界的发型稳健地移植到用户提供的脸上,以供虚拟试穿。为了实现这一目标,我们的 Stable-Hair 框架设计为两阶段管道。在第一阶段,我们训练秃头转换器和稳定扩散,以从用户提供的脸部图像中去除头发,从而得到秃头图像。

2024-07-25 21:11:53 371

原创 [ECCV 2024] [复旦]RECE:扩散模型概念移除,只需3秒即可充分移除风险概念!

为了解决上述问题,研究团队提出了一种可靠、高效的概念移除方法(RECE)。该方法以解析解的形式,迭代地进行风险概念移除、风险概念嵌入推导,从而确保模型彻底移除风险概念。RECE借鉴了对抗训练的思想,通过计算目标函数的解析解,高效地推导出新的风险概念嵌入,然后通过修改交叉注意力层,将它们与无害概念对齐。此外,为了保留模型的生成能力,RECE在嵌入推导过程中证明并引入了一个额外的正则项,从而最小化对生成能力的损害。可靠高效的概念移除前置知识。

2024-07-24 21:55:28 366

原创 3D虚拟试穿来了,上大、腾讯等提出ClotheDreamer,数字人也能实现穿,脱衣自由!

从文本合成高保真 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性,但要么与人体错综复杂地耦合,要么难以重复使用。我们介绍了 ClotheDreamer,这是一种基于 3D 高斯的方法,用于从文本提示生成可穿戴、可用于生产的 3D 服装资产。我们提出了一种新颖的表示解缠结服装高斯溅射 (DCGS) 来实现单独优化。DCGS 将穿衣的化身表示为一个高斯模型,但冻结了身体高斯溅射。

2024-07-23 21:56:48 609

原创 腾讯开源SEED-Story:AI续写小说还能自动配图!

随着图像生成和开放格式文本生成的显著进步,交错图像文本内容的创建已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像,已成为一项有价值且实用的任务,具有广泛的应用。然而,这项任务带来了重大挑战,因为它需要理解文本和图像之间复杂的相互作用,并能够生成长序列的连贯、上下文相关的文本和视觉效果。在这项工作中,我们提出了 SEED-Story,这是一种利用多模态大型语言模型 (MLLM) 生成扩展多模态故事的新方法。

2024-07-19 23:51:57 686

原创 家装设计师福音!HouseCrafter,一键将房子的平面图转成完整的3D室内场景!

HouseCrafter是一种新颖的方法,可以将平面图提升为完整的大型 3D 室内场景(例如房屋)。我们的主要见解是调整在网络规模图像上训练的 2D 扩散模型,以在场景的不同位置生成一致的多视图颜色 (RGB) 和深度 (D) 图像。具体来说,RGB-D 图像以分批方式自回归地沿着基于布局图的采样位置生成,其中先前生成的图像用作扩散模型的条件以在附近位置生成图像。扩散模型中的全局布局图和注意力设计确保了生成的图像的一致性,从中可以重建 3D 场景。

2024-07-19 23:48:51 235

原创 蚂蚁集团推出EchoMimic:能通过音频和面部标志生成逼真的肖像动画视频

EchoMimic不仅能够通过音频和面部特征点单独生成肖像视频,还能通过音频和选定的面部特征点的组合生成肖像视频。由音频驱动的肖像动画领域在生成逼真的动态肖像方面取得了显著进展。传统方法仅限于利用音频或面部关键点将图像驱动到视频中,虽然它们可以产生令人满意的结果,但也存在某些问题。例如,仅由音频驱动的方法有时会因为相对较弱的音频信号而不稳定,而仅由面部关键点驱动的方法虽然驱动更稳定,但由于对关键点信息的过度控制,可能会导致不自然的结果。

2024-07-19 23:47:03 917

原创 Fal开源力作,AuraFlow v0.1图像生成模型惊艳亮相!ComfyUI&Diffusers已支持,开启你的AI绘画梦想之旅!

如果您想尝试一些快速提示,请前往fal 的模型库开始尝试。如果您想使用该模型构建一些很酷的 Comfy 工作流程,请获取最新版本的Comfy并从我们的HuggingFace 页面下载模型权重。

2024-07-19 23:45:19 693

原创 ControlNet作者新作Paints-Undo:一键模拟人类绘画过程,再也没人敢说你的图是生成的了!

PaintsUndo:数字绘画中绘画行为的基础模型Paints-Undo 是一个旨在提供人类绘画行为基础模型的项目,希望未来的人工智能模型能够更好地满足人类艺术家的真实需求。“Paints-Undo”这个名字的灵感来自于相似性,即模型的输出看起来就像在数字绘画软件中多次按下“撤消”按钮(通常是 Ctrl+Z)。Paints-Undo 提出了一系列模型,以图像作为输入,然后输出该图像的绘制序列。

2024-07-14 16:45:14 635

原创 腾讯震撼发布!MOFA-Video:表情随心换,运动由你控,视频创作由你做主!

MOFA-Video是一种先进的可控图像动画方法,它使用各种额外的可控信号(例如人体地标参考、手动轨迹,甚至提供的另一个视频)或它们的组合从给定的图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散之前表现出较弱的控制能力。为了实现我们的目标,我们设计了几个领域感知的运动场适配器(即 MOFA-Adapters)来控制视频生成管道中生成的运动。

2024-07-14 16:42:52 600

原创 AI生图可以直出了!谷歌和Adobe提出使用图像神经场来训练扩散模型,AI生成图像走向真实化!

扩散模型表现出了令人印象深刻的对复杂数据分布进行建模的能力,与 GAN 相比具有几个关键优势,例如训练稳定、更好地覆盖训练分布的模式以及无需额外训练即可解决逆问题的能力。然而,大多数扩散模型学习的是固定分辨率图像的分布。我们提出通过在可以以任何分辨率渲染的图像神经场上训练扩散模型来学习连续图像的分布,并展示其相对于固定分辨率模型的优势。要实现这一点,一个关键挑战是获得一个代表照片级真实感图像神经场的潜在空间。

2024-07-14 16:39:35 684

原创 效果拿下新SOTA!中山大学&字节提出虚拟试穿框架-MMTryon,可通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。

本文介绍了 MMTryon,一种多模态多参考虚拟试穿 (VITON) 框架,该框架可以通过将文本指令和多张服装图像作为输入来生成高质量的组合试穿结果。我们的 MMTryon 解决了先前文献中忽略的三个问题:支持多个试穿项目。现有方法通常设计用于单件试穿任务(例如,上衣/下装、连衣裙)。穿衣风格的规范。现有方法无法根据说明定制穿衣风格(例如,拉上/拉开拉链、塞进/塞出等)分割依赖性。它们进一步严重依赖特定类别的分割模型来识别替换区域,分割错误直接导致试穿结果中出现明显的伪影。

2024-07-14 16:36:52 1091

原创 academic-homepage:快速搭建个人学术主页,页面内容包括个人简介、教育经历、发布过的学术列表等,同时页面布局兼容移动端。

今天给大家分享GitHub 上一个开源的 GitHub Pages 模板 academic-homepage。可帮助你快速搭建个人学术主页,页面内容包括个人简介、教育经历、发布过的学术列表等最基本内容,同时页面布局兼容移动端。

2024-07-14 16:35:08 211

原创 gptpdf:使用大模型(如 GPT-4o)将 PDF 解析为 markdown。

今天给大家分享一个开源的项目, 使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。使用lib 与 OpenAI API 交互。每页平均价格:0.013 美元是一个基于 gptpdf 的可视化工具。

2024-07-14 16:33:49 1275

原创 Poetry2Image:专为中文古诗词图像生成,忠于原诗意境和语义。

文本到图像的生成模型在涉及中国古典诗歌的任务中经常会遇到关键元素丢失或语义混淆的问题。通过微调模型解决这个问题需要相当大的训练成本。此外,手动提示重新扩散调整需要专业知识。为了解决这个问题,我们提出了 Poetry2Image,这是一个针对中国古典诗歌生成图像的迭代校正框架。利用外部诗歌数据集,Poetry2Image 建立了一个自动反馈和校正循环,通过图像生成模型和随后由大型语言模型 (LLM) 建议的重新扩散修改来增强诗歌和图像之间的一致性。

2024-07-14 16:32:04 574

原创 震撼发布!阿里通义FunAudioLLM:重塑自然语音交互新纪元,开源引领语音处理革命!

本报告介绍了 FunAudioLLM,这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型:SenseVoice,用于处理多语言语音识别、情感识别和音频事件检测;CosyVoice,用于促进自然语音生成,并控制多种语言、音色、说话风格和说话者身份。

2024-07-14 16:28:49 734

原创 开启视频创作新篇章!腾讯发布MimicMotion:单张图像+简单姿势,瞬间“活”化视频。

近年来,生成式人工智能在图像生成领域取得了长足进步,催生出各种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临巨大挑战,阻碍了这项技术的应用和普及。本文提出了一个可控的视频生成框架MimicMotion,可以在任意动作引导下生成任意长度的高质量视频。与以前的方法相比,我们的方法有几个亮点。首先,通过置信度感知的姿势引导,可以实现时间平滑性,从而利用大规模训练数据增强模型鲁棒性。其次,基于姿势置信度的区域损失放大显著缓解了图像的失真。

2024-07-06 10:39:17 1103

原创 手把手教你从零开始构建 AI 视频生成模型

OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经问世或未来将出现的文本转视频模型,是继大型语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在本博客中,我们将从头开始构建一个小规模的文本转视频模型。我们将输入一个文本提示,我们训练过的模型将根据该提示生成视频。本博客将涵盖从理解理论概念到编码整个架构并生成最终结果的所有内容。由于我没有高端的 GPU,因此我编写了小规模架构。

2024-07-06 10:36:52 457

原创 WebDesignAgent:一键构建你自己想要的网站

今天给大家介绍一个可以帮助你构建一系列网站的智能体WebDesignAgent。那么,回答第一个问题,什么是WebDesignAgent?WebDesignAgnet 是一个自主代理,可以帮助您建立一系列网站。它支持使用以下方式构建网页:文本→网站:轻松将您的文本描述转换为功能齐全、设计精美的网站。图像→网站:只需上传您的图像,即可看到它们无缝集成到令人惊叹的网站中。视觉线索→网站:将您的视觉布局带到网站。混合设计:无缝结合文本、图像和其他视觉线索,以创建令人惊叹、具有凝聚力的网页设计。

2024-07-06 10:36:00 311

原创 InstantStyle-Plus:风格转移与内容保留在文本到图像的生成

风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:风格,关注图像的美学特征;空间结构,涉及视觉元素的几何排列和组成;语义内容,捕捉图像的概念意义。

2024-07-06 09:16:08 990

原创 CLAY或许是今年最值得期待的3D生成模型,号称质量最好+布线最好+支持的输入模态最多+支持材质生成。

在数字创意领域,我们凭借想象力创造复杂 3D 世界的潜力常常受到现有数字工具的限制,这些工具需要大量的专业知识和努力。为了缩小这种差距,我们引入了 CLAY,这是一种 3D 几何和材料生成器,旨在毫不费力地将人类的想象力转化为复杂的 3D 数字结构。CLAY 支持经典的文本或图像输入以及来自各种基元(多视图图像、体素、边界框、点云、隐式表示等)的 3D 感知控件。

2024-06-30 18:29:01 1221

原创 理想汽车提出3DRealCar:首个大规模3D真实汽车数据集

3D 汽车通常用于自动驾驶系统、虚拟/增强现实和游戏。然而,现有的 3D 汽车数据集要么是合成的,要么是低质量的,与高质量的真实世界 3D 汽车数据集存在很大差距,限制了它们在实际场景中的应用。在本文中,我们提出了第一个大规模 3D 真实汽车数据集,称为 3DRealCar,它具有三个独特的特点。高容量:2,500 辆汽车经过 3D 扫描仪的精心扫描,获得具有真实世界尺寸的汽车图像和点云;高质量:每辆汽车平均在 200 个密集的高分辨率 360 度 RGB-D 视图中捕获,从而实现高保真 3D 重建;

2024-06-30 18:25:38 1085

原创 Streamer-Sales 销冠 —— 卖货主播大模型来了,一键让你成为销冠!

Streamer-Sales 销冠 —— 卖货主播大模型 是一个能够根据给定的商品特点从激发用户购买意愿角度出发进行商品解说的卖货主播大模型。以其独特的智能魅力,将彻底改变您的购物体验。该模型能深度理解商品特点,以生动、精准的语言为商品量身打造解说词,让每一件商品都焕发出诱人的光彩。无论是细节之处,还是整体效果,都能通过其细腻、独到的解说,激发用户的购买欲望。

2024-06-30 18:23:30 306

原创 CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!

在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。

2024-06-26 22:34:01 619

原创 字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。

这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:用合成图像替换所有标记的真实图像;扩大我们的教师模型的容量通过大规模伪标记真实图像的桥梁教授学生模型。与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。

2024-06-26 22:32:03 1189

原创 阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:需要根据文本描述准确维护每个参考主题的细节;难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。

2024-06-26 22:28:20 683

原创 AI自动生成角色和情节连续的漫画,中山大学&联想提出AutoStudio,可以多轮交互式连续生成并保持主题一致性。

由于尖端的文本转图像 (T2I) 生成模型已经擅长生成出色的单幅图像,因此一项更具挑战性的任务,即多轮交互式图像生成,开始引起相关研究界的关注。此任务要求模型与用户进行多轮交互以生成连贯的图像序列。但是,由于用户可能频繁切换主题,因此当前的努力很难在生成多样化图像的同时保持主题一致性。为了解决这个问题,我们引入了一个无需训练的多智能体框架,称为 AutoStudio。AutoStudio 使用三个基于大型语言模型 (LLM) 的智能体来处理交互,以及一个基于稳定扩散 (SD) 的智能体来生成高质量图像。

2024-06-26 22:26:41 1531

原创 上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型

虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。

2024-06-22 17:49:34 720

原创 海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!

最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。为实现这一目标,我们做出了以下贡献:创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;

2024-06-22 17:48:32 756

原创 Human4DiT:使用 4D Diffusion Transformer 生成自由视角人物视频。

我们提出了一种新的方法,用于从单个图像下在任意观点下产生高质量的时空连贯的人类视频。我们的框架结合了U-NET的优势,以进行准确的状态注入和扩散变压器,以捕获跨观点和时间的全局相关性。核心是级联的4D变压器体系结构,可将注意力跨越跨视图,时间和空间维度分配,从而可以对4D空间进行有效的建模。通过将人类身份,摄像机参数和时间信号注入相应的变压器来实现精确的调理。为了训练该模型,我们策划了一个跨越图像,视频,多视图数据和3D/4D扫描的多维数据集以及多维培训策略。

2024-06-20 20:55:41 693

原创 Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术

Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。Meta Chameleon系列模型可将文本和图像作为输入,输出任意文本和图像组合。已发布7B和34B模型的关键组件。发布多词预测预训练语言模型代码,可更高效训练语言模型。

2024-06-20 20:53:00 899

原创 超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。

近年来,扩散模型在图像生成方面表现出色。然而,由于生成超高分辨率图像(例如 4096 × 4096)时内存的二次方增加,生成的图像的分辨率通常限制为 1024 × 1024。在这项工作中,我们提出了一种单向块注意机制,可以在推理过程中自适应地调整内存开销并处理全局依赖关系。在此模块的基础上,我们采用 DiT 结构进行上采样,并开发了一个能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明,我们的模型在机器和人工评估中都能在生成超高分辨率图像方面实现 SOTA 性能。

2024-06-17 23:05:50 748

原创 复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。

2024-06-17 22:49:05 1133

原创 超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。

最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽管如此,仍然存在两个限制:需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;生成的视频通常时间较短(例如24帧),阻碍了实际应用。为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。

2024-06-17 22:47:18 1237

原创 电商领域利器来了!港大&阿里联合提出MimicBrush,对参考图模仿进行零样本图像编辑,万物皆可编辑。

图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。

2024-06-15 10:29:47 857

原创 效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测!

快手对标Sora的视频大模型「可灵」来了!早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始人兼首席执行官程一笑曾谈及快手自研大模型的研究及应用进展。可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。

2024-06-15 10:26:54 277

原创 文心大模型4.0加持的文心一言工具保姆级使用教程!快点赞收藏起来!

现在科技圈什么最火?那一定是大模型了。如雨后春笋般冒出的大模型,每一个都在争做行业No.1,但你知道现在哪个大模型能力最强?哪个最受人喜欢吗?近日,清华大学发布《SuperBench大模型综合能力评测报告》,从五大方面评测 14 个海内外具有代表性的模型。国内百度的文心一言4.0大模型表现非常亮眼,其中在中文推理、中文语言等评测上,文心一言遥遥领先。在“各大模型安全和价值观表现”中,文心一言4.0更是排行第一,领先于国外的各个大模型!“科技并不是高高在上,而是服务于人民。

2024-06-13 08:30:00 2109

原创 Stable Diffusion 3,他来了!文中附最新模型下载地址。

之前和大家介绍过 Stability AI 在 6 月 12 号将会开源 2B 版本的模型-Stable Diffusion 3 Medium。就在现在,他来了!在OpenAI发布Sora后,Stability AI也发布了其最新的模型Stabled Diffusion3, 之前的文章中已经和大家介绍过,感兴趣的小伙伴可以点击上面👆链接阅读。

2024-06-12 23:25:11 447

原创 港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!

又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。PCM主要改善了三个LCM原有的问题:LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。

2024-06-12 23:20:19 388

原创 突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型

TTS全称:Text To Speech(也就是文本转语音模型)而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

2024-06-12 23:17:08 2803

原创 谷歌发布HyperDreameBooth:单张人像20秒内完成模型训练,速度比DreamBooth快25倍,模型小10000倍

个性化已成为生成式 AI 领域的一个突出方面,它能够合成不同背景和风格的个人,同时保持其身份的高保真度。然而,个性化过程在时间和内存需求方面存在固有的挑战。微调每个个性化模型需要投入大量的 GPU 时间,并且存储每个主题的个性化模型对存储容量的要求很高。为了克服这些挑战,我们提出了HyperDreamBooth - 一个超级网络,能够从一个人的单张图像中高效地生成一小组个性化权重。

2024-06-12 23:14:40 1086

java作业管理系统设计(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

javaC语言试题生成与考试系统(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA在线考试管理系统(源代码+论文+开题报告+外文翻译+英文文献+答辩PPT).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

java银行帐目管理系统(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

Java游戏设计打飞机程序(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA语言考试系统的设计与实现(论文+源代码+文献综述+外文翻译+开题报告).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA医药管理系统设计(论文+源代码).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

java一个简单的即时通讯工具的设计与开发(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA音像店租赁管理系统的设计与实现(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA五子棋手机网络对战游戏的设计与实现(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA小区物业管理系统(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA物业管理系统设计与实现(论文+源代码).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA文件传输(论文+源代码).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA网上拍卖系统的设计与实现(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

java图形图象处理(论文+系统).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA网络通信系统的研究与开发(论文+源代码+开题报告).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA网络通信系统的研究与开发(源代码+论文+开题报告).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA图书馆书库管理系统设计(论文+源代码).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

java图书管理系统毕业设计(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA贪吃蛇游戏毕业设计(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

javaWeb物资管理系统项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVAWEB校园订餐系统项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

javaweb物流配货项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

javaWeb传智播客网上书城项目源码(设计以及实现论文).exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

java源码 仿360buy京东商城源码 京东JavaWeb项目源代码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

Javaweb仓库管理系统项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

讯友网络相册.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

新奥家电连锁网络系统.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

芝麻开门博客网.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

明日知道.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

科帮网javaWeb计算机配件报价系统项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

科研成果申报管理系统源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

高校学生选课系统项目源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

进销存管理系统.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

华奥汽车销售集团网源码.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

编程爱好者博客地带.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

都市供求信息网.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

大学生求职就业网.exe

直接解压exe文件就可以获取资源,资源包含可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVAWML信息查询与后端信息发布系统实现——WML信息查询设计(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

JAVA文件压缩与解压缩实践(源代码+论文).exe

直接解压exe文件就可以获取资源,资源包含毕业论文+可执行文件+源代码+程序使用说明,所有项目代码均已严格验证,可直接运行!如果有什么问题欢迎随时留言。

2024-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除