编程学习
文章平均质量分 64
多恩Stone
聚焦时尚设计领域的高可用 AIGC,现于香港理工-人工智能设计研究所搬砖
展开
-
【Linux 重装】Ubuntu 启动盘 U盘无法被识别,如何处理?
(2)通过以下命令格式化后,磁盘工具就可以识别啦。原创 2025-01-17 20:36:31 · 476 阅读 · 0 评论 -
【踩坑记录❌】ubuntu 安装 NVIDIA 显卡驱动不要 autoinstall
背景在 ubuntu 22.04 安装 NVIDIA 显卡驱动参考了 博客 的步骤进行,发现有很多评论也出现了无法联网的情况后续解决尝试了网卡驱动下载的各类方法,安装驱动的过程中又缺失内核头、 gcc 编译器等文件。由于没有网络,每次缺失的文件只能从另外一台同为 ubuntu 22.04 的电脑上下载,通过 u 盘拷贝,,,来回下载 3、4次后还未解决最后还是选择重装 ubuntu 了,特此记录下,避免再次犯错😭。原创 2025-01-10 14:55:33 · 351 阅读 · 0 评论 -
【PaddleOCR 踩坑记录】FatalError: `Illegal instruction` is detected by the operating system.
卸载并安装旧版本的 paddlepaddle。输入图像后,成功输出结果🎉。原创 2025-01-10 14:47:20 · 523 阅读 · 0 评论 -
【Triton-ONNX】如何使用 ONNX 模型服务与 Triton 通信执行推理任务上-Triton快速开始
运行示例图像客户端应用程序,以使用示例 dendensenet_onnx 模型执行图像分类。要发送 dendensenet_onnx 模型的请求,请使用 /workspace/images 目录中的图像。在某些情况下,使用 CUDA 共享内存在客户端库和 Triton 之间传递张量可以显著提高性能。在某些情况下,使用系统共享内存在客户端库和 Triton 之间通信张量可以显著提高性能。原创 2025-01-02 16:09:44 · 1115 阅读 · 0 评论 -
【vs code(cursor) ssh连不上服务器(3)】无法连接到远程扩展主机服务器 (错误: CodeError(AsyncPipeFailed(Os { code: 2, kind: NotF
将 vs code ssh 插降级到0.107.1(安装特定版本),并关闭自动更新,终于在 vs code 上正常连接上服务器了😭🎉。注意,最好同时也关闭 vs code 的自动更新,因为服务器那边的 vs code 不会自动更新,可能也会出现不匹配版本的问题。大概率可能是 vs code 插件自动更新,导致不能连接上版本太老的 OpenSSH / OpenSSL?发现服务器3 的 OpenSSH 和 OpenSSL 比较老!原创 2024-11-02 11:41:43 · 3013 阅读 · 3 评论 -
模型权重文件总结: .bin、.safetensors、.pt的保存、加载方法一览
bin.pt.pth:这些格式大多数情况下保存的是state_dict,需要通过将其加载到模型中。完整模型 (.pt:保存的是整个模型对象,包含模型架构和权重,加载时直接得到模型实例。:专为安全和效率设计,需要库处理加载和保存。原创 2024-10-22 12:33:23 · 3914 阅读 · 0 评论 -
【HuggingFace 如何上传数据集 (3) 】Dataset-稳定上传与下载大量(上万)图片等格式的数据
【HuggingFace 如何上传数据集】快速上传图片、文本等各种格式的数据可能遇到网络不稳定的情况。【HuggingFace 如何上传数据集 (2) 】国内网络-稳定上传图片、文本等各种格式的数据可能遇到传输限制文件数量不能超过 10000 条的情况。本文则通过 datasets 库来进行大量的图像数据上传。原创 2024-10-18 11:15:56 · 760 阅读 · 0 评论 -
【HuggingFace 如何上传数据集 (2) 】国内网络-稳定上传图片、文本等各种格式的数据
上文的方法因为是 https 协议,在国内很容易遇到不稳定、中断等可能性,为了保障能稳定上传,推荐还是使用 ssh 协议来传输。原创 2024-10-17 20:23:45 · 1241 阅读 · 0 评论 -
【wandb】FileNotFoundError + Timed out waiting for wandb service to start after 30.0 s
在 python 主程序中设置 wandb 的可以参考官方论坛中的方法: https://community.wandb.ai/t/how-to-increase-service-wait/5418。说明问题应该就是 deepspeed 和 wandb 之间的网络通信出现了一定的问题,或者就是网速比较慢,需要更长的等待时间。由于本文的情况是在 accelerator 直接 log_with 中登录的 wandb,如下所示。因此,只需在命令行中尝试增加等待时间即可。再仔细往上溯源,发现真正的错误其实是在。原创 2024-10-17 20:01:41 · 463 阅读 · 0 评论 -
【HuggingFace 如何上传数据集】快速上传图片、文本等各种格式的数据
如果只是为了上传备份、或者迁移数据,可以不用 huggingface dataset,而是直接使用 HfApi()来上传文件夹。原创 2024-10-17 15:54:43 · 1252 阅读 · 0 评论 -
【分布式训练(6)】深入理解多卡训练时 training steps, epoch 的相关概念
通常情况下,像 args.num_train_epochs 这样的超参数应该在训练开始之前被设定为固定值,而不是在训练过程中被动态计算和赋值。文本以 flux 的微调训练代码为例 https://github.com/XLabs-AI/x-flux/blob/main/train_flux_deepspeed.py。这样,我们就可以在多GPU环境中更有效地利用硬件资源,加速训练过程。,我们可以控制每次更新模型时使用的数据量,进而影响模型训练的稳定性和收敛速度。原创 2024-10-15 21:54:01 · 1248 阅读 · 0 评论 -
【分布式训练(5)】无法 kill PID?如何 kill 休眠中的 GPU 占用进程
所以对这些 .cursor-server 的 PID 号进行 kill 就可以解决该问题啦。原创 2024-10-15 16:13:07 · 519 阅读 · 0 评论 -
【分布式训练(4)】accelerator.sync_gradients 和 checkpointing 深入理解
sync_gradients(同步梯度)原创 2024-10-14 22:01:06 · 746 阅读 · 0 评论 -
【分布式训练(3)】accelerator + deepspeed debug 报错 “Timed out waiting for debuggee to spawn“ 解决方法✅
用以上 launch.json 对 accelerator + deepspeed 的训练代码进行 debug,结果完全无法连接。灵感来源:https://blog.csdn.net/qq_19716143/article/details/136035839。原创 2024-10-14 21:27:57 · 548 阅读 · 0 评论 -
【分布式训练(2)】深入理解 DeepSpeed 的 ZeRO 内存优化策略 (三阶段的区别)
在深度学习领域,分布式训练是一个重要的研究方向,它允许我们利用多个GPU来加速模型的训练过程。然而,随着模型规模的增大,单个GPU的内存限制成为了一个瓶颈。为了解决这个问题,DeepSpeed 提供了一种名为 Zero Redundancy Optimizer(简称 ZeRO)的技术,它通过不同的阶段(stage)来优化内存使用,从而使得训练更大的模型成为可能。原创 2024-10-12 21:28:13 · 718 阅读 · 0 评论 -
【Pytorch 深入理解(1)】不训的模块为什么 training = true ?.train() 和 .eval() 的区别,和 requires_grad 的关系?
冻结参数:使用 requires_grad_(False)。设置训练模式:使用 model.train()。这样可以确保模型在训练过程中正常工作,但不会更新被冻结的参数。原创 2024-10-12 18:11:00 · 194 阅读 · 0 评论 -
【分布式训练 debug】VS Code Debug 技巧:launch.json实用参数
在使用Visual Studio Code (VS Code)进行调试时,文件是一个强大的工具,它允许你自定义调试会话。以下是一些实用的参数,可以帮助你更有效地调试Python代码。原创 2024-10-02 20:01:19 · 852 阅读 · 0 评论 -
【vs code(cursor) ssh连不上服务器(2)】但是 Terminal 可以连上,问题解决 ✅
如果问题依然存在,可以尝试调整网络配置或查看更详细的日志。原创 2024-09-30 12:32:01 · 2264 阅读 · 0 评论 -
【vs code(cursor) ssh连不上服务器】但是 Terminal 可以连上,问题解决 ✅
通过 vs code 的 ssh 原本方式无法连接,但是通过 Terminal 使用相同的 bash 却可以连接上服务器。原创 2024-09-29 13:23:52 · 2950 阅读 · 0 评论 -
【Hugging Face 下载中断】Git LFS 如何下载指定文件、单个文件夹?
在处理大型模型或数据集时,我们经常使用 Git Large File Storage (LFS) 来管理这些大文件。然而,下载过程中可能会遇到中断,需要重新下载特定文件或文件夹。本文将介绍如何在 Hugging Face 上使用 Git LFS 下载指定文件或单个文件夹。原创 2024-09-20 11:05:48 · 678 阅读 · 0 评论 -
深入探讨:为什么会出现 0.30000000000000004 以及如何避免浮点数精度问题
在编程和数据分析中,处理浮点数是常见的任务。然而,浮点数的精度问题常常困扰着开发者。一个典型的例子是,当你尝试在 Python 中生成从 0.1 到 0.9 的浮点数序列时,你可能会意外地得到像 0.30000000000000004 这样的值。本文将探讨这种现象的原因,并提供一些解决方案。原创 2024-09-09 21:41:10 · 671 阅读 · 0 评论 -
【问题解决】ImportError: numpy.core.multiarray failed to import
在 import cv2 时出现以下报错。原创 2024-08-22 11:01:12 · 740 阅读 · 0 评论 -
【脏数据 bug 解决】ValueError: mean must have 1 elements if it is an iterable, got 3
轻松跨过脏数据的坑!原创 2024-08-21 20:38:22 · 808 阅读 · 0 评论 -
【wandb bug 记录与解决】Filenotfounderror: error [2] no such file or directory: ‘/tmp/tmpde8ivzj0/por...
在使用 wandb 时遇到报错如下wandb 相关代码如下。原创 2024-08-21 19:22:51 · 387 阅读 · 0 评论 -
【扩散模型(七)】Stable Diffusion 3 diffusers 源码详解2 - DiT 与 MMDiT 相关代码(上)
虽然这些变量来自于同一个线性层的输出,但由于 nn.Linear 层的权重在训练过程中是可学习的,并且是随机初始化的,因此这些权重会在训练过程中被更新为不同的值。原创 2024-08-12 15:52:35 · 1729 阅读 · 0 评论 -
【diffusers极速入门(七)】Classifier-Free Guidance (CFG)直观理解以及对应代码
由于 Classifier-Free Guidance (CFG) 相关的理论解释博客已经很多了,本文不涉及理论推导,而侧重直观理解和对应的 diffusers 代码。原创 2024-08-12 12:38:53 · 2393 阅读 · 0 评论 -
【diffusers极速入门(六)】缓存梯度和自动放缩学习率以及代码详解
缓存梯度(Gradient Checkpointing): 通过在前向传播过程中存储部分中间激活值,减少显存占用,代价是反向传播速度变慢。适用于需要训练非常深或大的模型的情况。自动放缩学习率(Learning Rate Scaling): 根据训练配置(如 GPU 数量(num_processes)、梯度累积步数和批量大小)自动调整学习率,以适应不同的训练环境和配置,确保训练的稳定性和效果。原创 2024-07-30 11:51:20 · 1097 阅读 · 0 评论 -
【已解决】ImportError: cannot import name ‘MultiControlNetModel‘ from ‘diffusers.pipelines.controlnet‘
IP-Adapter 环境配置中的小坑原创 2024-06-25 16:37:58 · 1173 阅读 · 0 评论 -
【diffusers 极速入门(一)】pipeline 实际调用的是什么? __call__ 方法!
_call__通过这篇文章,我们了解了diffusers库中的管道对象是如何通过实现__call__方法来处理图像生成任务的。我们还通过简单的案例代码,展示了如何创建和使用一个自定义的管道对象。希望这篇文章能够帮助你更好地理解diffusers库的工作原理,并激发你在图像生成领域的探索和创作。如果你对diffusers感兴趣,不妨试着实现自己的管道对象,体验其中的乐趣吧!原创 2024-06-19 19:53:10 · 708 阅读 · 0 评论 -
为什么直接用 cv2.imwrite 保存 PIL 的图片会导致奇怪的颜色?
PIL 是一个处理图像的强大库,主要用于图像的打开、操作和保存。在 PIL 中,常用的图像对象是PIL.Image对象。OpenCV 是一个用于计算机视觉和图像处理的开源库,提供了丰富的功能。OpenCV 处理图像时使用numpy数组作为图像数据结构。PIL 和 OpenCV 处理图像的通道顺序不同PIL 使用 RGB 顺序。OpenCV 使用 BGR 顺序。颜色差异的原因直接使用相同的numpy数组保存图像时,由于通道顺序不同,颜色会有差异。解决方案。原创 2024-06-18 20:24:38 · 793 阅读 · 0 评论 -
【gradio 极速入门(二)】gr.Image 是如何得到 Mask 的?
Gradio 是一个用于构建和部署交互式机器学习应用的Python库。它的设计目的是让开发者能够轻松地将训练好的机器学习模型封装成一个用户友好的界面,使得非技术人员也能够使用和理解模型的预测结果。(官方链接:https://www.gradio.app/)在 Gradio 中,当设置和时,这些参数影响了用户在交互式界面上使用绘图工具(如笔刷工具)时生成的遮罩mask。原创 2024-06-18 16:43:33 · 1600 阅读 · 1 评论 -
【gradio 极速入门(一)】已解决,TypeError: init() got an unexpected keyword argument ‘source‘
说明 source 不是 gr.Image 里的关键字参数,这可能是 gradio 相关的包版本不兼容导致。则可以通过 pip show 来 check 版本是否一致。如果不一致,则可以先卸载后重装制定版本。验证版本无误后,成功正常运行🎉。原创 2024-06-17 16:35:51 · 1369 阅读 · 0 评论 -
【diffusers 本地下载问题】from_pretrained 找不到本地文件?OSError: Error no file named model.bin found in directory
软链接的颜色取决于它指向的实际文件或目录的类型和属性。:表示文件或目录有特殊的权限或者属性。特别是,如果文件或目录的权限设置了不寻常的位或者它被标记为具有特殊的SELinux安全上下文等,它可能会显示为红色。如果软链接指向的文件或目录具有特殊权限或属性,例如设置了不寻常的权限位或者具有特殊的SELinux上下文,那么软链接可能会显示为红色。综上所述,软链接的颜色取决于其所指向的实际文件或目录的类型和属性,而不是软链接本身的属性。如果软链接指向的是一个目录,它会显示为蓝色,表示这是一个指向目录的软链接。原创 2024-06-14 15:08:10 · 1073 阅读 · 0 评论 -
【深度学习 DeBug 小技巧!】RuntimeError: CUDA error: device-side assert triggeredCUDA(用CPU debug 解决后再用GPU)
在 Pytorch 到 onnx 转化的过程中,出现以下问题。原创 2024-06-06 11:57:49 · 558 阅读 · 0 评论 -
【 torch.jit.script 踩坑记录】‘method_descriptor‘ object has no attribute ‘__globals__‘ 暂未解决
AttributeError 是一种异常,当你试图访问或操作一个对象不存在的属性时会发生。在 Python 中,一切皆对象,对象具有定义其行为和属性的属性。当你试图访问一个不存在的属性时,Python 会引发 AttributeError 来告知你出了问题。原创 2024-06-06 11:38:52 · 954 阅读 · 0 评论 -
【官方文档解读】torch.jit.script 的使用,并附上官方文档中的示例代码
将函数或nn.Module脚本化,会检查源代码,并使用 TorchScript 编译器将其编译为 TorchScript 代码,并返回一个或。TorchScript 是 Python 语言的一个子集,因此并不是所有的 Python 功能都能在其中使用,但我们提供了足够的功能来对张量进行计算和执行控制相关操作。完整指南请参阅 TorchScript 语言参考。原创 2024-06-04 20:27:08 · 3041 阅读 · 2 评论 -
【 0 基础 Docker 极速入门】镜像、容器、常用命令总结
通过这些概念,Docker 提供了一个完整的生命周期管理工具集,从创建和测试镜像,到分发和运行容器,再到管理和备份镜像。每个步骤都在 Docker 环境中起着关键作用,确保应用程序可以高效、可靠地运行在不同的计算环境中。Docker 是一个用于创建、部署和运行应用容器的平台。原创 2024-05-31 23:58:17 · 561 阅读 · 0 评论 -
【保姆级教程附代码(二)】Pytorch (.pth) 到 TensorRT (.plan) 模型转化全流程细化
上一篇简要介绍了神经网络模型从到的流程。本文则进一步细化该流程中需要的步骤,包括用到的各种环境和工具。此外,系列文不仅包括了“怎么做”,还包括了“为什么这么做”的个人理解。原创 2024-05-31 14:47:12 · 1487 阅读 · 0 评论 -
【Epoch,Batch,Iteration】深度学习模型训练相关基础概念光速理解!
光速理解 epoch, batch 和 iteration原创 2024-05-30 21:58:15 · 315 阅读 · 0 评论 -
【附代码案例】深入理解 PyTorch 张量:叶子张量与非叶子张量
在 PyTorch 中,张量是构建神经网络模型的基本元素。了解张量的属性和行为对于深入理解模型的运行机制至关重要。本文将介绍 PyTorch 中的两种重要张量类型:叶子张量和非叶子张量,并探讨它们在反向传播过程中的行为差异。原创 2024-05-27 22:09:57 · 738 阅读 · 0 评论
分享