AIGC专栏
文章平均质量分 96
专门介绍AIGC相关内容,focus on Stable Diffusion与LLM。
Bubbliiiing
这个作者很懒,什么都没留下…
展开
-
AIGC专栏15——CogVideoX-Fun详解 支持图&文生视频 拓展CogVideoX到256~1024任意分辨率生成
这段时间正在训练EasyAnimateV4.5,发现总有一些问题解决不了,开始怀疑是自己的训练框架有问题。恰逢清华开源了CogVideoX,这是个很优秀的文生视频模型,可惜没有图生视频,还固定了分辨率,于是试着将CogVideo修改到我们的框架中,发现其实效果还不错。原创 2024-09-18 15:20:45 · 3502 阅读 · 6 评论 -
AIGC专栏14——ComfyUI秋叶包+EasyAnimate 本地快速拉起
最近给EasyAnimateV3写了ComfyUI的工作流,以方便别人测试。不过一点一点安装环境再拉起服务有点麻烦,在Windows上用秋叶包比较简单,写个教程如何结合ComfyUI秋叶包+EasyAnimate 本地快速拉起。在人工智能艺术创作的领域里,Stable Diffusion 凭借其开放源代码的特性,吸引了众多开发者与艺术家的目光,并且因为强大的社区支持而展现出强大的影响力。原创 2024-07-25 00:12:19 · 3275 阅读 · 9 评论 -
AIGC专栏13——ComfyUI 插件编写细节解析-以EasyAnimateV3为例
最近在给EasyAnimateV3写ComfyUI的工作流,以方便别人测试。学习了ComfyUI的基本操作,也看了一下别人是怎么写的,自己也折腾了一下。在人工智能艺术创作的领域里,Stable Diffusion 凭借其开放源代码的特性,吸引了众多开发者与艺术家的目光,并且因为强大的社区支持而展现出强大的影响力。Stable Diffusion 的两大主流创作平台分别是 Stable Diffusion WebUI 与 ComfyUI。原创 2024-07-13 15:45:14 · 4732 阅读 · 9 评论 -
AIGC专栏12——EasyAnimateV3发布详解 支持图&文生视频 最大支持960x960x144帧视频生成
EasyAnimate到了V3版本,我们将vae修改从MagVIT替换成了Slice VAE,同时支持图生视频,扩大了生成的分辨率。现在EasyAnimate支持图 和 文 生视频同时最大支持960x960 144帧的视频生成,FPS为24,另外通过图生视频的能力,我们还可以进行视频续写,生成无限长视频。本文主要进行EasyAnimateV3的算法详解,并且介绍一下EasyAnimateV3的使用。原创 2024-07-06 15:35:16 · 7099 阅读 · 15 评论 -
AIGC专栏11——EasyAnimateV2结构详解与Lora训练 最大支持768x768 144帧视频生成
研究了好长时间的文生视频,EasyAnimate到了V2版本,我们将vae修改成了magvit,同时支持图片和视频的训练与预测,另外还引入了U-vit提高训练的稳定性并加快收敛。现在EasyAnimate最大支持768x768 144帧的视频生成,FPS为24,最长6秒。本文主要进行EasyAnimateV2的算法详解,并且介绍一下如何通过EasyAnimate训练自己的Lora。原创 2024-06-05 11:10:40 · 4033 阅读 · 6 评论 -
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频
在过年期间,OpenAI放出了SORA文生视频的预览效果,一瞬间各大媒体争相报道,又引爆了一次科技圈,可惜的是,SORA依然没选择开源。在这个契机下,本来我也对文生视频的工作非常感兴趣,所以也研究了一些与SORA相关的技术,虽然我们没有像OpenAI那么大的算力,但做一些基础研究还是足够的。最近我参与了一个EasyAnimate的项目,可以根据文本生成视频,并且借鉴了Animatediff的IDEA,将MotionModule网格化后引入到DIT中,借助DIT的强大生成能力,生成视频效果也还不错。原创 2024-04-13 15:45:28 · 5228 阅读 · 3 评论 -
AIGC专栏9——Scalable Diffusion Models with Transformers (DiT)结构解析
近期Sora大火,它底层是Diffusion Transformer,本质上是使用Transformer结构代替原本的Unet进行噪声预测,好处是统一了文本生成与视频生成的结构。这训练优化和预测优化而言是个好事,因为只需要优化一种结构就够了。虽然觉得OpenAI是大力出奇迹,但还是得学!原创 2024-02-25 18:30:10 · 10100 阅读 · 19 评论 -
神经网络学习小记录77——深入浅出Self-Attention自注意力机制与Transformer模块
Self-Attention自注意力机制是Transformer模块的重要组成部分,是截至到现在(2024年1月6日)大大小小网络的标配,无论是LLM还是StableDiffusion,内部都有Self-Attention与Transformer,因此,一起来学学哈哈。原创 2024-01-13 14:27:05 · 12406 阅读 · 12 评论 -
AIGC专栏8——EasyPhoto 视频领域拓展-让AIGC肖像动起来
图像的AI写真是AI人像的初步应用,如何让图像动起来,形成一段视频,是AI写真领域的重要应用方向拓展。文生视频图生视频与视频转视频,是AI写真视频的3个方向。在Text2Video功能中,我们首先自选的SD模型 + AnimateDiff设置的mm_sd_v15_v2.ckpt(Animate运动先验模型;默认选取,无需自己选择),以及用户设定的prompt,生成一段顺滑的带有人脸的视频。原创 2023-11-12 16:42:14 · 6014 阅读 · 2 评论 -
AIGC专栏7——EasyPhoto 人像训练与生成原理详解
如何训练一个高品质的人像Lora与应用高品质Lora的链路对于写真生成而言非常重要。由《LoRA: Low-Rank Adaptation of Large Language Models》 提出的一种基于低秩矩阵的对大参数模型进行少量参数微调训练的方法,广泛引用在各种大模型的下游使用中。目前对超过数十亿以上参数的具有强能力的大模型针对下游任务进行微调中会呈现出巨大开销。LoRA 建议冻结预训练模型的权重并在每个自注意力部分通过全连接的方式注入可训练层。原创 2023-09-25 15:37:42 · 10457 阅读 · 13 评论 -
AIGC专栏6——通过阿里云与AutoDL快速拉起Stable Diffusion和EasyPhoto
快速拉起AIGC服务 对 用户体验AIGC的产品 而言非常重要,因为环境半天东西都装不好,也用不起来,那哪还有期待去玩呢?通过阿里云与AutoDL可以快速拉起Stable Diffusion和EasyPhoto,简单试试。原创 2023-09-16 15:24:13 · 5638 阅读 · 2 评论 -
AIGC专栏5——EasyPhoto AI写真照片生成器 sd-webui插件介绍、安装与使用
在视觉方向的AIGC领域,AI写真是一个靠谱且经过验证的落地方案,随着StableDiffusion领域开源社区的快速发展,社区也涌现了类似 FaceChain 这样基于 Modelscope开源社区结合 diffusers 的开源项目,用于指导用户快速开发个人写真。然而对于大量使用SDWebUI的 AIGC 同学们,短时间内却没有一个效果足够好的开源插件,去适配真人写真这一功能。对于AI写真而言,需要注意两个方向的重点,一个是一定要和用户像,另外一个是一定要真实。原创 2023-09-04 17:06:22 · 16560 阅读 · 11 评论 -
AIGC专栏4——Stable Diffusion原理解析-inpaint修复图片为例
Inpaint是Stable Diffusion中的常用方法,一起简单学习一下。Inpaint是一项图片修复技术,可以从图片上去除不必要的物体,让您轻松摆脱照片上的水印、划痕、污渍、标志等瑕疵。一般来讲,图片的inpaint过程可以理解为两步:1、找到图片中的需要重绘的部分,比如上述提到的水印、划痕、污渍、标志等。2、去掉水印、划痕、污渍、标志等,自动填充图片应该有的内容。原创 2023-08-06 21:00:39 · 18825 阅读 · 34 评论 -
AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例
用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不一样,非常不稳定哈。Stable Diffusion最开始的应用应该是文本生成图像,即文生图,随着技术的发展Stable Diffusion不仅支持image2image图生图的生成,还支持ControlNet等各种控制方法来定制生成的图像。原创 2023-07-29 17:25:02 · 15604 阅读 · 48 评论 -
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例
用了很久的Stable Diffusion,但从来没有好好解析过它内部的结构,写个博客记录一下,嘿嘿。Stable Diffusion是比较新的一个扩散模型,翻译过来是稳定扩散,虽然名字叫稳定扩散,但实际上换个seed生成的结果就完全不一样,非常不稳定哈。Stable Diffusion最开始的应用应该是文本生成图像,即文生图,随着技术的发展Stable Diffusion不仅支持image2image图生图的生成,还支持ControlNet等各种控制方法来定制生成的图像。原创 2023-06-11 23:30:03 · 20351 阅读 · 51 评论 -
AIGC专栏1——Pytorch搭建DDPM实现图片生成
我又死了我又死了我又死了!如上图所示。DDPM模型主要分为两个过程:1、Forward加噪过程(从右往左),数据集的真实图片中逐步加入高斯噪声,最终变成一个杂乱无章的高斯噪声,这个过程一般发生在训练的时候。加噪过程满足一定的数学规律。2、Reverse去噪过程(从左往右),指对加了噪声的图片逐步去噪,从而还原出真实图片,这个过程一般发生在预测生成的时候。尽管在这里说的是加了噪声的图片,但实际去预测生成的时候,是随机生成一个高斯噪声来去噪。去噪的时候不断根据XtX_tXt的图片生成X。原创 2023-02-05 18:24:38 · 28570 阅读 · 111 评论