- 博客(121)
- 收藏
- 关注
原创 创建vllm的docker镜像和容器
本文介绍了使用vLLM部署大模型的完整流程。首先通过Docker启动容器,挂载模型目录并配置GPU资源。接着在容器内安装vLLM,启动服务时需注意模型参数匹配。文章详细说明了部署不同量化模型的方法,包括AWQ量化模型和多模态模型,重点提示了图片输入需base64编码处理。同时解析了关键参数:tensor-parallel-size用于控制GPU数量,max-model-len设置上下文长度,gpu-memory-utilization优化显存利用率。最后解释了服务监控指标含义,帮助用户评估系统性能。整个过程
2025-06-11 19:13:54
315
原创 ubuntu 22.04 换源
参考:清华大学开源软件镜像站ubuntu | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
2025-05-08 16:57:15
780
原创 ubuntu24.04系统,容器内算法服务运行一段时间cuda突然不能使用
是指执行程序或任务的环境或平台,在不同的上下文中,"运行时" 可能有不同的含义。对于 Docker 和 NVIDIA Container Toolkit 中的运行时,它主要指的是负责管理和执行容器的底层组件。默认情况下,Docker 并不能直接访问 GPU 资源,原因是 GPU 的管理需要专门的驱动程序和工具。运行时,Docker 容器能够更好地与 GPU 进行交互,充分利用硬件资源,满足高性能计算和深度学习训练的需求。运行时,这样它才能正确地与 GPU 驱动进行通信,并将 GPU 资源暴露给容器。
2024-12-20 09:48:37
1268
原创 NVIDIA MPS
当使用MPS时,MPS Server会通过一个 CUDA Context 管理GPU硬件资源,多个MPS Clients会将他们的任务通过MPS Server 传入GPU ,从而越过了硬件时间分片调度的限制,使得他们的CUDA Kernels 实现真正意义上的并行。MPS基于C/S架构,配置成MPS模式的GPU上运行的所有进程,会动态的将其启动的内核发送给MPS server,MPS Server借助CUDA stream,实现多个内核同时启动执行。除此之外,MPS还可配置各个进程对GPU的使用占比。
2024-12-11 16:13:58
1195
原创 Ollama的升级教程
输入"ollama -v",查看当前ollama版本如果官网下载很快的话,直接下载国内镜像。大家先去看下有没有新版本的,这是魔塔的ollama镜像,如果更新不及时,可以使用我的备份镜像安装modelscope命令行下载。
2024-12-06 11:01:19
8299
原创 Ollama 服务配置-常用环境变量
最新版Ollama开始支持从Huggingface Hub上直接拉取各种模型,包括社区创建的GGUF量化模型。OLLAMA_VERSION环境变量与安装脚本一起使用,以安装特定版本的 Ollama,包括预发行版。可以在 releases 页面中找到版本号。编辑 systemd 服务。这将打开一个编辑器。2. 对于每个环境变量,在。
2024-12-06 09:56:45
22534
原创 在Ubuntu系统中将SQL文件导入到MySQL数据库:
ubuntu 安装mysql参考文章:ubuntu 安装mysql_ubuntu安装mysql-CSDN博客命令行导入sql文件【以Ubuntu为例】_ubuntu命令行下如何读取.sql-CSDN博客
2024-08-20 09:46:53
405
原创 docker版本安装攻略
如果已经安装了 NVIDIA Container Toolkit,你应该能在输出中看到有关 NVIDIA 的信息。这个命令将输出一些关于 NVIDIA GPU 的信息,包括安装的驱动版本。如果这个命令返回了一个版本号,那么 Git LFS 已经安装在你的系统上。如果已安装 Docker 或 Docker Compose 但版本不符合要求,则需要卸载它们。如果已安装 Docker,此命令将输出当前安装的 Docker 版本。: 如果是通过包管理器安装的 Docker Compose,可以用。
2024-06-04 15:41:40
1515
1
原创 notpad++正则化,利用关键字符删除整行
首先,ctrl+f,选中[替换],勾选正则表达式(可以勾选[匹配大小写],不用勾选[匹配新行])。在[查找目标]框输入[^(.*)"car_no_clean"(.*)$\n]。在$后加上\n,可以将被替换的行直接删除,不加则会将被替换的行变为空格。
2023-11-15 14:24:00
1893
原创 通用的ARM64架构镜像
此链接包含x86架构和ARM架构的pytorch镜像,镜像里面已下载好各种第三方库,GPU版本的pytorch可用。缺点:镜像有点大。
2023-08-29 16:32:08
817
原创 华为鲲鹏+银河麒麟v10 安装 docker-ce
设备:硬件:仅有ARM处理器,无GPU和NPU,操作系统麒麟银河V10,Kunpeng-920#######参考原链接#########在 arm64(aarch64) 架构服务器上基于国产化操作系统安装 docker 服务。
2023-03-10 11:44:49
5151
7
原创 银河麒麟操作系统安装nvidia-container-toolkit
ARM架构下安装nvidia-container-toolkitcurl -s -L https://nvidia.github.io/nvidia-docker/centos8/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.reposudo yum install -y nvidia-container-toolkitsudo systemctl restart dockernvidia-docker 存储库配置
2022-05-16 20:52:15
2680
1
原创 ARM架构上YOLOv5算法部署错误
报错:AttributeError: ‘Upsample‘ object has no attribute ‘recompute_scale_factor‘ 的解决方案解决办法:降低PyTorch的版本到1.9.0No module named ‘skimage‘解决办法:pip install scikit-image
2022-05-16 20:44:15
610
原创 PyTorch和TensorFlow轮子下载链接
#支持amd和x86,操作系统win、macos、linuxtensorflow · PyPI#支持amd、x86和aarch架构,操作系统win、macos、linuxtorch · PyPIarm架构下安装说明,参考链接如下:基于arm架构的ubuntu18 .04安装Anaconda3 + pytorch+python3.9_qq_41426807的博客-CSDN博客_arm ubuntu 安装教程...
2022-05-05 15:59:52
1625
原创 在ARM64平台下安装TensorFlow和Pytorch
#TensorFlow安装包Releases · lhelontra/tensorflow-on-arm · GitHub#PyTorch安装过程基于arm架构的ubuntu18 .04安装Anaconda3 + pytorch+python3.9_qq_41426807的博客-CSDN博客_anaconda arm#PyTorch安装包torch · PyPI...
2022-04-29 10:37:07
1166
原创 ‘_RSAPublicKey‘ object has no attribute ‘verifier‘
'_RSAPublicKey' object has no attribute 'verifier'错误解决:pip install cryptography==36.0.2 #将版本返回到36.0.2版本;
2022-04-28 20:49:28
1433
原创 ARM64架构下安装PyTorch、TensorFlow以及python第三方库出现的错误
OSError: Could not find library geos_c or load any of its variants ['libgeos_c.so.1', 'libgeos_c.so']解决办法Ubuntu系统执行:sudo apt-get install libgeos-devCentOS系统执行:sudo yum install geos-devel报错:Check the logs for full command output解决:检查是否有这个驱动libpq.
2022-04-28 11:40:04
3120
原创 GPU compute capability(算力)和CUDA版本冲突问题
RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
2022-01-13 14:32:02
7356
原创 英伟达显卡算力查询--A5000、RTX30系列以及GTX
显卡算力查询链接:https://developer.nvidia.com/zh-cn/cuda-gpus#computeCUDA GPUs | NVIDIA Developerhttps://developer.nvidia.com/cuda-gpus?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=deb_local#computep
2022-01-13 10:59:07
5640
原创 RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED
GTX 10系类显卡生成的容器CUDA10.2、cudnn7、Pytorch1.8.0、python=3.8可以训练。把镜像加载到RTX 20系类显卡容器训练出现上述错误:RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED目前解决办法:降低pytorch版本,PyTorch=1.7.1,python=3.7怀疑可能是:1.显卡驱动版本问题。2.显卡显存被占用太多。3.还可能是docker镜像并不能完美适应,10系类和20系类
2021-12-09 17:54:21
1308
原创 Error response from daemon: linux runtime spec devices: could not select device driver ““ 解决办法
CentOS7.7离线安装docker之后docker run --gpus all 之后出现上面问题。docker run 不带--gpus all没有出现错误,所以需要安装nvidia-container-runtime。离线安装nvidia-container-runtime:1、在一台联网的机器上执行这两个命令distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io
2021-08-12 20:26:53
506
原创 CentOS7.7离线安装驱动、docker、CUDA和cudnn
第一步:驱动安装1.预、查询命令1、Linux查看显卡信息:(ps:若找不到lspci命令,可以安装 yum install pciutils)lspci | grep -i vga2、使用nvidia GPU可以:lspci | grep -i nvidia3、查看显卡驱动cat /proc/driver/nvidia/version一、前提准备(参考:https://www.cnblogs.com/gollong/p/12655424.html)1.安装依赖环境:yum
2021-08-12 10:52:50
2393
1
原创 用pytorch训练EfficientNet网络。出现错误IndexError: dimension specified as 0 but tensor has no dimensions
if input.size(0) != target.size(0):IndexError: dimension specified as 0 but tensor has no dimensions原因:train或者validation dataset 样本数量与batchsize不是整除的关系解决:调整为整除关系,不再报错(从最大batchsize递减慢慢测试出来的)...
2021-07-23 09:36:04
508
原创 pytorch1.9.0 TypeError: __array__() takes 1 positional argument but 2 were given
#降低pillow的版本即可pip install pillow==8.2.0 TypeError: __array__() takes 1 positional argument but 2 were given#Steps to reproduce the behavior:import torchimport torchvision.transforms as transformsfrom PIL import Imagetfms = transforms.Compose(..
2021-07-21 09:53:07
580
原创 VScode配置libtorch环境(ubuntu18.04+libtorch1.7.0+pytorch1.7.0模型)
出现这个错误的原因是:terminate called after throwing an instance of 'c10::Error'。解答:下面三个.json里面libtorch和build的路径没有给对,是路径错误tasks.json{ "version": "2.0.0", "tasks": [ { "type": "shell", "label": "example-app", //lauch.json preLaunchTask "command": "
2021-05-19 14:47:36
1100
转载 深度学习学习基本概念:batch_size、epoch、 iteration
Note:以识别为例,输入RGB图像,batch=16,在全部训练样本中随机不重复的抽取16张图像作为一个批次,在批次中单独一张图像进行卷积(卷积向下取整),比如卷积层滤波器个数为32,经过卷积之后输出32个特征图,假如类别个数位1万类,这张图像经过整个网络输出得到1万个值,最大的值对应的类别就是这个图像训练出的结果(网络训练的结果:图像对应的类别),16张图像最后都会学到一个结果,作为本次迭代的...
2019-08-20 22:58:01
1487
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人