
模型部署
文章平均质量分 69
多恩Stone
聚焦时尚 AIGC -> https://github.com/wendashi/Cool-GenAI-Fashion-Papers
展开
-
【Qwen2.5-VL 踩坑记录】本地 + 海外账号和国内账号的 API 调用区别(阿里云百炼平台)
这行代码在调用通义千问API之前,设置了API的基础URL。这个URL是阿里云提供的国际版通义千问API的端点地址。API密钥与特定区域或端点绑定(例如,一个密钥可能只能用于中国区,另一个只能用于国际区)需要根据不同的API密钥使用不同的端点URL(例如,国内版和国际版)本人的服务器在香港,采用海外版的 API 时,需要进行如下。:API的根路径,所有API请求都会基于这个URL构建。:API服务器的URL地址,客户端通过此地址访问服务。:配置RESTful API客户端的地址和行为。原创 2025-04-23 18:47:49 · 428 阅读 · 0 评论 -
【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始
运行示例图像客户端应用程序,以使用示例 dendensenet_onnx 模型执行图像分类。要发送 dendensenet_onnx 模型的请求,请使用 /workspace/images 目录中的图像。在某些情况下,使用 CUDA 共享内存在客户端库和 Triton 之间传递张量可以显著提高性能。在某些情况下,使用系统共享内存在客户端库和 Triton 之间通信张量可以显著提高性能。原创 2025-01-02 16:09:44 · 1261 阅读 · 0 评论 -
【HTTP和gRPC的区别】协议类型/传输效率/性能/语义/跨语言支持/安全性/使用场景/易用性对比
这个表格总结了HTTP和gRPC在不同方面的主要区别,帮助快速比较和理解两者的差异。原创 2025-01-02 11:35:44 · 693 阅读 · 0 评论 -
【权重小技巧(2)】模型权重文件总结: .bin、.safetensors、.pt的保存、加载方法一览
bin.pt.pth:这些格式大多数情况下保存的是state_dict,需要通过将其加载到模型中。完整模型 (.pt:保存的是整个模型对象,包含模型架构和权重,加载时直接得到模型实例。:专为安全和效率设计,需要库处理加载和保存。原创 2024-10-22 12:33:23 · 6548 阅读 · 6 评论 -
【Hugging Face 下载中断】Git LFS 如何下载指定文件、单个文件夹?
在处理大型模型或数据集时,我们经常使用 Git Large File Storage (LFS) 来管理这些大文件。然而,下载过程中可能会遇到中断,需要重新下载特定文件或文件夹。本文将介绍如何在 Hugging Face 上使用 Git LFS 下载指定文件或单个文件夹。原创 2024-09-20 11:05:48 · 1049 阅读 · 0 评论 -
【Flux TensorRT 模型部署踩坑(二)】TypeError: z_(): incompatible function arguments. Invoked with: %329
TypeError: z_(): incompatible function arguments. The following argument types are supported: 1. (self: torch._C.Node, arg0: str, arg1: torch.Tensor) -> torch._C.NodeInvoked with: %329 : Tensor = onnx::Constant(), scope: transformers.models.clip.mode原创 2024-09-16 21:15:16 · 832 阅读 · 0 评论 -
【Flux TensorRT 模型部署踩坑(一)】onnx_export 模型输入乱序,TypeError: takes 3 positional arguments but 4 were given
通过在 onnx_export 时将断点打到调用的 pipeline.transformer 模型 forward 开头位置,发现是与此处的输入变量一一对应,而非调用 pipeline.transformer 处的输入顺序。解决方案就是改用 (1) 的顺序,重新写 onnx_export 中的 model_args,注意,None 和 False 的值也要写上,可以将以下代码作为参考。onnx_export 过程中,一直出现有 forward() 中的输入变量数量不对的问题。原创 2024-09-16 20:21:57 · 836 阅读 · 0 评论 -
【Triton Inference Server 多输入|多输出|无输出】如何用 triton_client.infer 调用多输入、多输出的模型进行推理呢?
本文介绍了如何在多输入的情况下,实现 tritonclient 的 .infer。原创 2024-06-11 14:12:21 · 1187 阅读 · 0 评论 -
【TensorRT 多输入】trtexec 如何对多输入的 onnx 模型进行序列化(转化)?
通过正确指定输入的形状和动态范围,可以使用trtexec将多输入的 ONNX 模型成功转换为 TensorRT 引擎。在遇到问题时,检查形状格式和模型的批处理维度是解决问题的关键。原创 2024-06-11 14:03:10 · 1672 阅读 · 0 评论 -
【深度学习 DeBug 小技巧!】RuntimeError: CUDA error: device-side assert triggeredCUDA(用CPU debug 解决后再用GPU)
在 Pytorch 到 onnx 转化的过程中,出现以下问题。原创 2024-06-06 11:57:49 · 639 阅读 · 0 评论 -
【 torch.jit.script 踩坑记录】‘method_descriptor‘ object has no attribute ‘__globals__‘ 暂未解决
AttributeError 是一种异常,当你试图访问或操作一个对象不存在的属性时会发生。在 Python 中,一切皆对象,对象具有定义其行为和属性的属性。当你试图访问一个不存在的属性时,Python 会引发 AttributeError 来告知你出了问题。原创 2024-06-06 11:38:52 · 1038 阅读 · 0 评论 -
【官方文档解读】torch.jit.script 的使用,并附上官方文档中的示例代码
将函数或nn.Module脚本化,会检查源代码,并使用 TorchScript 编译器将其编译为 TorchScript 代码,并返回一个或。TorchScript 是 Python 语言的一个子集,因此并不是所有的 Python 功能都能在其中使用,但我们提供了足够的功能来对张量进行计算和执行控制相关操作。完整指南请参阅 TorchScript 语言参考。原创 2024-06-04 20:27:08 · 3752 阅读 · 2 评论 -
【 0 基础 Docker 极速入门】镜像、容器、常用命令总结
通过这些概念,Docker 提供了一个完整的生命周期管理工具集,从创建和测试镜像,到分发和运行容器,再到管理和备份镜像。每个步骤都在 Docker 环境中起着关键作用,确保应用程序可以高效、可靠地运行在不同的计算环境中。Docker 是一个用于创建、部署和运行应用容器的平台。原创 2024-05-31 23:58:17 · 588 阅读 · 0 评论 -
【保姆级教程附代码(二)】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程细化
上一篇简要介绍了神经网络模型从到的流程。本文则进一步细化该流程中需要的步骤,包括用到的各种环境和工具。此外,系列文不仅包括了“怎么做”,还包括了“为什么这么做”的个人理解。原创 2024-05-31 14:47:12 · 1616 阅读 · 0 评论 -
【附代码案例】深入理解 PyTorch 张量:叶子张量与非叶子张量
在 PyTorch 中,张量是构建神经网络模型的基本元素。了解张量的属性和行为对于深入理解模型的运行机制至关重要。本文将介绍 PyTorch 中的两种重要张量类型:叶子张量和非叶子张量,并探讨它们在反向传播过程中的行为差异。原创 2024-05-27 22:09:57 · 814 阅读 · 0 评论 -
【附代码】@hydra.main 没有返回值,如何解决函数返回?
在这个例子中,我们使用 threading.local() 创建了一个线程局部变量 global_final_path。在 my_app 函数中,我们将函数的返回值 some_result 存储在 global_final_path.final_path 中。在主程序中,我们通过 global_final_path.final_path 获取函数的返回值,并将其打印出来。这样做能确保在多线程环境中,每个线程都能正确地获取函数的返回值,而不会发生冲突或混乱。原创 2024-05-27 22:05:06 · 558 阅读 · 0 评论 -
【已解决】CLIP 的 textencoder 部分 .pt 转化 onnx 模型没有输入节点 [ONNXRuntimeError] : 2 : INVALID_ARGUMENT : Invalid
(1)通过 onnx 的可以找到转化时定义的模型输入,示例代码如下# 加载 ONNX 模型# 打印模型输入定义列表print("ONNX 模型的输入定义:")input。原创 2024-05-23 10:32:59 · 1998 阅读 · 0 评论 -
【已解决】ONNXRuntimeError 9 NOT_IMPLEMENTED Could not find an implementation for ArgMax(13) node with
这里的范围 0 到 49408 的 token 输入通常来自于 CLIP 模型的文本 tokenization 过程。CLIP 模型中的文本输入需要经过 tokenization,以便将每个词转换为一个唯一的 token ID。在对 CLIP 模型的文本 encoder 模块从 .pt 到 .onnx 的转化过程中,遇到报错。遇到的问题大概率是由于ONNX Runtime不支持模型中的ArgMax操作的。另外,也可以尝试在模型外部实现ArgMax操作,并将结果传递给网络。原创 2024-05-23 09:48:56 · 1632 阅读 · 0 评论 -
【找出 ONNX 输入】onnx_model.graph.input 或者 ort_session.get_inputs()
这里需要注意下 onnxruntime 对应的 CUDA 和 cuDNN 版本,不一定适配,具体可查看。针对转化成果的 .onnx 模型,通过以下代码即可查看定义好的输入和输出。先下载好 onnx 和 onnxruntime-gpu。正确的输出情况示例如下,其中为 0 的维度是可变的维度。原创 2024-05-22 17:14:46 · 695 阅读 · 0 评论 -
【如何检查 ONNX 模型是否正确?】onnx.checker.check_model 用法详解
通过 onnx.checker.check_model 函数可以检查模型的一致性,即模型在结构、格式和配置方面的正确性和完整性。原创 2024-05-20 18:17:10 · 2308 阅读 · 1 评论 -
【CLIP模型从.pt到.onnx】ValueError: Unsupported type for attn_mask: 5 已解决
在深度学习模型设计阶段(写论文、进行研究时),由于模型结构和参数经常变化,最常用的模型权重格式包括 .pt、.pth 和 .ckpt 等。原创 2024-05-20 13:58:52 · 1182 阅读 · 0 评论 -
【PyTorch Lightning】.ckpt 是什么?里面有什么?
在训练过程中保存模型的状态是一种最佳实践。这样可以在开发模型的过程中,在每个关键点上获得模型的一个版本,即一个检查点。一旦训练完成,您可以使用在训练过程中找到的性能最佳的检查点。与普通的 PyTorch 不同,Lightning 保存了你在最复杂的分布式训练环境中恢复模型所需的一切。官方文档:https://lightning.ai/docs/pytorch/stable/common/checkpointing_basic.html。检查点还使得训练在中断的情况下可以从中断的地方恢复。原创 2024-04-15 20:22:14 · 3147 阅读 · 0 评论 -
【保姆级教程附代码】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程
那么恭喜你的 .onnx 大概率是可以转化到 .plan 的!当然这里也有些坑,比如明明是显存不够错误,但日志里完全没提 oom,而是说节点问题。。。原创 2024-04-03 21:23:43 · 2059 阅读 · 0 评论 -
【保姆级教程】带有透明图层的 Layer Diffusion 在 ubuntu 上如何跑通
【保姆级教程】带有透明图层的 layer diffuse 在 ubuntu 上如何跑通原创 2024-03-27 17:16:24 · 2444 阅读 · 0 评论 -
已解决 | trtexec: command not found, 在 Docker 容器中找不到 trtexec 命令
bash: trtexec: command not found原创 2024-03-26 15:47:37 · 1273 阅读 · 1 评论 -
解决|onnxruntime gpu 推理比 torch 慢,session 初始化
用 pytorch 几秒就能跑完的,用 onnxruntime 反而慢了10 倍不止,下图中 ‘CUDAExecutionProvider’ 也说明 onnxruntime 确实是用上了 GPU。原创 2024-03-26 14:21:35 · 6355 阅读 · 16 评论 -
(已解决)docker 中运行 cv2 缺失 OpenGL|cannot open shared object file: No such file or directory
docker 中运用 cv2 包导致报错 ImportError: libGL.so.1: cannot open shared object file: No such file or directory 和 ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory原创 2024-03-25 15:55:10 · 2483 阅读 · 0 评论 -
(解决方案)docker could not select device driver |Docker 无法成功分配或访问GPU资源
解决 docker 找不到驱动/GPU,报错 docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]. ERRO[0000] error waiting for container: context canceled原创 2024-03-25 14:53:37 · 4794 阅读 · 0 评论 -
ONNX模型推理 | ONNX Runtime 找不到 CUDA,推理只能用 CPU 时的解决方案
onnxruntime 推理时无法用上 GPU,onnxruntime 找不到 CUDA原创 2024-03-20 10:21:36 · 11141 阅读 · 7 评论