![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 78
多恩Stone
聚焦时尚设计领域的高可用 AIGC,现于香港理工-人工智能设计研究所搬砖
展开
-
【扩散模型(六)】Stable Diffusion 3 diffusers 源码详解1-推理代码-文本处理部分
下图为《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》 (ICML 2024 )中的 SD3 架构图。原创 2024-07-19 16:12:11 · 906 阅读 · 0 评论 -
【手撕代码(1)】Transformer 核心操作之一,nn.LayerNorm 的实现
LN 是对单个数据的指定维度进行 Normalization (归一化)处理,且指定的维度至少得包括最后一个维度。原创 2024-07-19 13:28:58 · 297 阅读 · 0 评论 -
【扩散模型(五)】IP-Adapter 源码详解3-推理代码
这里以中最基础的以图生图(Image Variations)为例:输入处理:对 img prompt 和 txt prompt 分别先得到 embedding 后再送入 SD 的 pipeline;过 Unet:与一般输入 txt prompt 类似,通过 Unet 的各个模块;Unet 中的 CA:对于 img prompt 部分需要拆出来,单独过针对性的 k (to_k_ip)和 v(to_v_ip)。原创 2024-07-17 20:43:56 · 1045 阅读 · 0 评论 -
【扩散模型(四)】IP-Adapter 源码详解2-训练核心(cross-attention)
本文通过详细的结构图和相关代码片段介绍了 IP-Adapter 训练代码的核心部分,下篇则介绍其推理代码。原创 2024-07-17 16:20:59 · 1083 阅读 · 0 评论 -
【扩散模型(三)】IP-Adapter 源码详解1-训练输入(image projection)
本文详解了IP-Adapter 训练源码中的输入部分,下篇则详解核心部分,针对图像输入的 Cross-Attention。↩︎。原创 2024-07-05 14:49:50 · 990 阅读 · 0 评论 -
【可控图像生成系列论文(四)】IP-Adapter 具体是如何训练的?1公式篇
IP-Adapter 的结构和 SD 的差别不是特别大,可以参考【扩散模型(二)】中的结构图进行快速理解,本文则将详细介绍其 IP-Adapter 的训练过程。IP-Adapter 的训练目标和 SD 的原始训练目标一致,但由于仅仅训练投影网络和适配模块(Image prompt 输入的 cross attention),可训练参数量非常轻量化(仅 22M)。↩︎↩︎↩︎↩︎↩︎↩︎↩︎需要注意的是,仅使用图像提示也能很好地指导最终生成,因此也可以在没有文本提示的情况下训练模型。原创 2024-06-25 20:07:21 · 980 阅读 · 0 评论 -
【扩散模型(一)】Stable Diffusion中的重建分支(reconstruction branch)和条件分支(condition branch)
重建分支负责从噪声中逐步重建出清晰的图像。条件分支则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。这种结构使得 Stable Diffusion 模型既能够生成高质量的图像,又能够根据特定的条件生成符合要求的图像。原创 2024-06-24 21:35:25 · 1034 阅读 · 0 评论 -
【AIGC 概念理解】Zero-Shot,One-Shot,Few-Shot,In-Context Learning,Tuning-Free/Training-Free/Inference-Only
Zero-shot learning是一种极端的少样本学习()方法,它使得模型能够在完全没有见过目标类样本的情况下进行预测。模型通过在训练阶段学习到的特征和类描述之间的关系来实现这一点。原创 2024-06-23 17:13:18 · 1202 阅读 · 0 评论 -
【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系
UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形,由编码器(下采样)和解码器(上采样)组成。编码器逐步提取图像特征并缩小空间维度,解码器则将这些特征还原到原始的空间维度,同时逐步增加分辨率。对称结构:编码器和解码器对称分布。跳跃连接:直接将编码器的中间层输出传递到解码器的对应层,保留了高分辨率特征。多尺度特征提取:在不同尺度上提取特征,提升了网络对细节的捕捉能力。VAE 变分自编码器是一种生成模型,通过学习输入数据的潜在表示来生成新数据。编码器。原创 2024-06-20 16:57:01 · 1434 阅读 · 0 评论 -
【Triton Inference Server 多输入|多输出|无输出】如何用 triton_client.infer 调用多输入、多输出的模型进行推理呢?
本文介绍了如何在多输入的情况下,实现 tritonclient 的 .infer。原创 2024-06-11 14:12:21 · 524 阅读 · 0 评论 -
【TensorRT 多输入】trtexec 如何对多输入的 onnx 模型进行序列化(转化)?
通过正确指定输入的形状和动态范围,可以使用trtexec将多输入的 ONNX 模型成功转换为 TensorRT 引擎。在遇到问题时,检查形状格式和模型的批处理维度是解决问题的关键。原创 2024-06-11 14:03:10 · 549 阅读 · 0 评论 -
【官方文档解读】torch.jit.script 的使用,并附上官方文档中的示例代码
将函数或nn.Module脚本化,会检查源代码,并使用 TorchScript 编译器将其编译为 TorchScript 代码,并返回一个或。TorchScript 是 Python 语言的一个子集,因此并不是所有的 Python 功能都能在其中使用,但我们提供了足够的功能来对张量进行计算和执行控制相关操作。完整指南请参阅 TorchScript 语言参考。原创 2024-06-04 20:27:08 · 1161 阅读 · 2 评论 -
【SVG 生成系列论文(九)】如何通过文本生成 svg logo?IconShop 模型推理代码详解
本文将详细拆解 IconShop 的模型结构和对应开源代码。上篇有提到过模型架构如下所示,本篇则从代码的逻辑进行解释,主要是中的sample以及forward两个函数。原创 2024-06-03 21:41:54 · 888 阅读 · 0 评论 -
【已解决】CLIP 的 textencoder 部分 .pt 转化 onnx 模型没有输入节点 [ONNXRuntimeError] : 2 : INVALID_ARGUMENT : Invalid
(1)通过 onnx 的可以找到转化时定义的模型输入,示例代码如下# 加载 ONNX 模型# 打印模型输入定义列表print("ONNX 模型的输入定义:")input。原创 2024-05-23 10:32:59 · 1130 阅读 · 0 评论 -
【已解决】ONNXRuntimeError 9 NOT_IMPLEMENTED Could not find an implementation for ArgMax(13) node with
这里的范围 0 到 49408 的 token 输入通常来自于 CLIP 模型的文本 tokenization 过程。CLIP 模型中的文本输入需要经过 tokenization,以便将每个词转换为一个唯一的 token ID。在对 CLIP 模型的文本 encoder 模块从 .pt 到 .onnx 的转化过程中,遇到报错。遇到的问题大概率是由于ONNX Runtime不支持模型中的ArgMax操作的。另外,也可以尝试在模型外部实现ArgMax操作,并将结果传递给网络。原创 2024-05-23 09:48:56 · 343 阅读 · 0 评论 -
CLIP 的 text encoder 能输入多少个单词?
设置为 77 表示模型的输入长度限制为 77 个 token。77 个 token 不等同于 77 个单词,因为一个单词可能会被拆分成多个 token。实际的单词数量会少于 77 个,具体取决于句子的复杂度和分词方式。通常情况下,77 个 token 可以容纳大约 70 个左右的单词,这取决于句子的内容和复杂度。为了在实际应用中得到精确的单词数量与 token 数量的关系,可以对输入文本进行 tokenization 并观察其输出。通过这种方式,可以更好地理解模型的输入限制。原创 2024-05-22 19:49:13 · 966 阅读 · 0 评论 -
【保姆级教程附代码】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程
那么恭喜你的 .onnx 大概率是可以转化到 .plan 的!当然这里也有些坑,比如明明是显存不够错误,但日志里完全没提 oom,而是说节点问题。。。原创 2024-04-03 21:23:43 · 1232 阅读 · 0 评论 -
ubuntu 中用 conda install xformers 报错包不匹配【Could not solve for environment specs The following package】
复现论文时,在 ubuntu 中使用 conda install 如下 bash 命令行就会报错原创 2024-01-15 19:39:18 · 2279 阅读 · 5 评论 -
.pt文件无法打开或乱码?如何查看.pt文件的具体内容?
复现论文 GTM-Transformer 过程中的数据集直接用 vscode 打开的效果没法看import torch # Load category and color encodingscat_dict = torch.load('C:/自己替换/category_labels.pt')for k, v in cat_dict.items(): # k 参数名 v 对应参数值 print(k, v)运行结果图:参考博客:https://blog.csdn..原创 2022-04-07 17:52:40 · 17417 阅读 · 3 评论