![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Diffusion
文章平均质量分 80
多恩Stone
聚焦时尚设计领域的高可用 AIGC,现于香港理工-人工智能设计研究所搬砖
展开
-
【扩散模型(六)】Stable Diffusion 3 diffusers 源码详解1-推理代码-文本处理部分
下图为《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》 (ICML 2024 )中的 SD3 架构图。原创 2024-07-19 16:12:11 · 906 阅读 · 0 评论 -
【手撕代码(1)】Transformer 核心操作之一,nn.LayerNorm 的实现
LN 是对单个数据的指定维度进行 Normalization (归一化)处理,且指定的维度至少得包括最后一个维度。原创 2024-07-19 13:28:58 · 297 阅读 · 0 评论 -
【扩散模型(五)】IP-Adapter 源码详解3-推理代码
这里以中最基础的以图生图(Image Variations)为例:输入处理:对 img prompt 和 txt prompt 分别先得到 embedding 后再送入 SD 的 pipeline;过 Unet:与一般输入 txt prompt 类似,通过 Unet 的各个模块;Unet 中的 CA:对于 img prompt 部分需要拆出来,单独过针对性的 k (to_k_ip)和 v(to_v_ip)。原创 2024-07-17 20:43:56 · 1043 阅读 · 0 评论 -
【扩散模型(四)】IP-Adapter 源码详解2-训练核心(cross-attention)
本文通过详细的结构图和相关代码片段介绍了 IP-Adapter 训练代码的核心部分,下篇则介绍其推理代码。原创 2024-07-17 16:20:59 · 1083 阅读 · 0 评论 -
【扩散模型(三)】IP-Adapter 源码详解1-训练输入(image projection)
本文详解了IP-Adapter 训练源码中的输入部分,下篇则详解核心部分,针对图像输入的 Cross-Attention。↩︎。原创 2024-07-05 14:49:50 · 990 阅读 · 0 评论 -
【可控图像生成系列论文(五)】ControlNet 和 IP-Adapter 之间的区别有哪些?
在 ControlNet 中,由于通过残差连接(红框的部分)将输入直接添加到 SD Decoder Block 中,以便在训练深度神经网络时防止梯度消失问题。IP-Adapter 通常通过一种适配器模块来实现,该模块能够动态调整生成模型的参数或特征,以适应不同的输入条件。条件输入则大小的限制。下图右边是 ControlNet,条件输入需要和最终输出的大小保持 pixel-level 的一致。下图左边是 IP-Adapter,条件输入可以和基础输入、最终输出的大小不一致。原创 2024-06-27 21:54:55 · 447 阅读 · 0 评论 -
【可控图像生成系列论文(四)】IP-Adapter 具体是如何训练的?1公式篇
IP-Adapter 的结构和 SD 的差别不是特别大,可以参考【扩散模型(二)】中的结构图进行快速理解,本文则将详细介绍其 IP-Adapter 的训练过程。IP-Adapter 的训练目标和 SD 的原始训练目标一致,但由于仅仅训练投影网络和适配模块(Image prompt 输入的 cross attention),可训练参数量非常轻量化(仅 22M)。↩︎↩︎↩︎↩︎↩︎↩︎↩︎需要注意的是,仅使用图像提示也能很好地指导最终生成,因此也可以在没有文本提示的情况下训练模型。原创 2024-06-25 20:07:21 · 980 阅读 · 0 评论 -
【扩散模型(一)】Stable Diffusion中的重建分支(reconstruction branch)和条件分支(condition branch)
重建分支负责从噪声中逐步重建出清晰的图像。条件分支则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。这种结构使得 Stable Diffusion 模型既能够生成高质量的图像,又能够根据特定的条件生成符合要求的图像。原创 2024-06-24 21:35:25 · 1034 阅读 · 0 评论 -
【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究
上一篇文章提到可以从两个分支来看 Stable Diffusion1重建分支(reconstruction)负责从噪声中逐步重建出清晰的图像。条件分支(condition)则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。原创 2024-06-25 14:38:08 · 1216 阅读 · 0 评论 -
【可控图像生成系列论文(二)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读2
上篇简要介绍了论文的整体流程和方法,本文则将就整体方法、模型结构、训练数据和纹理迁移进行详细介绍。原创 2024-06-20 22:59:08 · 1094 阅读 · 2 评论 -
【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系
UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形,由编码器(下采样)和解码器(上采样)组成。编码器逐步提取图像特征并缩小空间维度,解码器则将这些特征还原到原始的空间维度,同时逐步增加分辨率。对称结构:编码器和解码器对称分布。跳跃连接:直接将编码器的中间层输出传递到解码器的对应层,保留了高分辨率特征。多尺度特征提取:在不同尺度上提取特征,提升了网络对细节的捕捉能力。VAE 变分自编码器是一种生成模型,通过学习输入数据的潜在表示来生成新数据。编码器。原创 2024-06-20 16:57:01 · 1434 阅读 · 0 评论 -
【diffusers 极速入门(二)】如何得到扩散去噪的中间结果?Pipeline callbacks 管道回调函数
动态无分类器引导(classifier-free guidance,CFG)允许在一定步数后禁用 CFG,从而节省计算成本。该回调函数在每一步结束时执行,并修改管道属性和变量,以供下一步使用。这在动态调整某些管道属性或修改张量变量时非常有用。通过访问并转换潜在空间,可以在每步生成后显示图像。以下函数将 SDXL 的潜在空间(4 通道)转换为 RGB 张量(3 通道)。,如果你有其他执行点的回调需求,可以在 github 上提出功能请求。在管道的去噪循环中,可以使用。要设置回调函数,可以指定。原创 2024-06-19 20:24:04 · 929 阅读 · 0 评论 -
【gradio 极速入门(二)】gr.Image 是如何得到 Mask 的?
Gradio 是一个用于构建和部署交互式机器学习应用的Python库。它的设计目的是让开发者能够轻松地将训练好的机器学习模型封装成一个用户友好的界面,使得非技术人员也能够使用和理解模型的预测结果。(官方链接:https://www.gradio.app/)在 Gradio 中,当设置和时,这些参数影响了用户在交互式界面上使用绘图工具(如笔刷工具)时生成的遮罩mask。原创 2024-06-18 16:43:33 · 351 阅读 · 0 评论 -
【gradio 极速入门(一)】已解决,TypeError: init() got an unexpected keyword argument ‘source‘
说明 source 不是 gr.Image 里的关键字参数,这可能是 gradio 相关的包版本不兼容导致。则可以通过 pip show 来 check 版本是否一致。如果不一致,则可以先卸载后重装制定版本。验证版本无误后,成功正常运行🎉。原创 2024-06-17 16:35:51 · 392 阅读 · 0 评论 -
【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。原创 2024-06-17 12:03:53 · 903 阅读 · 0 评论 -
【diffusers 本地下载问题】from_pretrained 找不到本地文件?OSError: Error no file named model.bin found in directory
软链接的颜色取决于它指向的实际文件或目录的类型和属性。:表示文件或目录有特殊的权限或者属性。特别是,如果文件或目录的权限设置了不寻常的位或者它被标记为具有特殊的SELinux安全上下文等,它可能会显示为红色。如果软链接指向的文件或目录具有特殊权限或属性,例如设置了不寻常的权限位或者具有特殊的SELinux上下文,那么软链接可能会显示为红色。综上所述,软链接的颜色取决于其所指向的实际文件或目录的类型和属性,而不是软链接本身的属性。如果软链接指向的是一个目录,它会显示为蓝色,表示这是一个指向目录的软链接。原创 2024-06-14 15:08:10 · 386 阅读 · 0 评论 -
【SVG 生成系列论文(十一)】如何定制化地生成 SVG 图案?Text-Guided Vector Graphics Customization
评估:作者使用来自矢量级、图像级和文本级的多种指标对该方法进行了广泛评估。背景:矢量图形在数字艺术中被广泛使用,并因其可扩展性和逐层拓扑特性而受到设计师的重视。,重建目标图像,确保在与定制光栅图像对齐的同时实现平滑的形状变形,以保留路径的规则性。本文提出了一种新颖的流程,可以根据文本提示生成高质量的定制矢量图形,同时保留给定的。问题:然而,创建和编辑矢量图形需要创意和设计专业知识,因此是一个耗时的过程。,作者生成了基于文本提示的定制光栅图像(像素图像)。,该方法保留并转换了示例SVG中的关键路径。原创 2024-06-04 19:46:56 · 664 阅读 · 0 评论