[linux]-ubuntu22.04使用parallel-rsync

本文介绍了prsync工具,一种用于快速并行rsync文件同步的实用程序,它在apt更新和安装pssh后被用于备份。然而,prsync缺乏--delete选项,这可能对需要删除远程旧版本文件的用户造成不便。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导语:体验一下prsync工具(parallel-rsync)

apt update ;apt install pssh -y 
#apt update 
#apt install --reinstall pssh -d 
#cd /var/cache/apt/archives/
#dpkg-deb -X  pssh_2.3.4-2_all.deb  abc # 解压出deb中的可执行文件
parallel-rsync -l root -av -H "192.168.10.81 192.168.10.82"  /data1/yunwei  /tmp/

但是parallel-rsync没有–delete参数

<think>好的,用户想在Ubuntu 22.04系统上用多块4090显卡部署DeepSeek大模型。首先,我需要回忆之前的引用内容,看看有什么相关的信息。引用里提到了Ollama和KTransformers,但用户可能更关注具体的部署步骤。 首先,系统环境准备是必须的。用户用的是Ubuntu 22.04,需要安装NVIDIA驱动和CUDA工具包。多卡的话,可能需要配置NCCL来支持多GPU通信。驱动版本要兼容CUDA 12.x,因为4090可能需要较新的驱动。然后,安装CUDA和cuDNN,确保多卡环境正常。 接下来是部署工具的选择。引用中提到KTransformers支持GPU/CPU异构计算,特别优化了MoE架构,可能适合多卡部署。用户可能需要用这个框架来利用多块4090。另外,Hugging Face的模型库可能有DeepSeek的GGUF版本,但多卡部署可能需要不同的方法。 然后,安装必要的软件包。Python环境、PyTorch支持多GPU的版本,还有Transformers库。需要确认PyTorch是否安装了CUDA版本,并且能够检测到多块显卡。安装KTransformers框架,可能还需要从源码安装或者通过pip。 下载模型部分,用户需要获取DeepSeek的模型文件。根据引用,可以从Hugging Face下载GGUF量化版本,比如用wget获取。但如果是多卡部署,可能需要原生的模型文件而不是量化版,因为量化可能影响多卡效率。这里可能需要进一步确认,用户需要的是否是量化版本,或者原始模型。 编写推理脚本时,要利用多卡。PyTorch的DataParallel或DistributedDataParallel可以用于多GPU。或者,使用KTransformers提供的多GPU支持,查看其文档是否有相关参数。例如,在命令行参数中指定使用的GPU数量,或者在代码中设置设备映射。 验证多卡使用情况,可以通过nvidia-smi查看GPU利用率,或者代码中输出使用的设备信息。如果发现只有单卡被使用,可能需要检查代码中的并行设置是否正确。 性能优化方面,模型并行、流水线并行或者使用KTransformers的优化策略。例如,将模型的不同层分配到不同的GPU上,或者调整批量大小以充分利用显存。另外,混合精度训练和激活重计算可以节省显存,提高效率。 可能遇到的问题:驱动不兼容、CUDA版本问题、多卡通信失败、显存不足等。需要检查日志,确保NCCL正确安装,多卡之间的连接正常。使用docker容器时,要确保容器能够访问所有GPU。 最后,用户可能需要具体的示例代码,比如修改后的推理脚本,或者命令行参数如何调整。根据引用3中的示例,运行命令可能需要添加--gpu_num这样的参数来指定多卡,但需要查阅KTransformers的文档确认。 总结步骤:环境准备→工具安装→模型下载→编写多卡推理代码→验证和优化。确保每一步都检查多卡的支持情况,特别是在框架和模型加载时的配置。</think>### Ubuntu 22.04 多卡部署DeepSeek模型分步指南 #### 一、系统环境准备 1. **NVIDIA驱动安装** - 执行`ubuntu-drivers devices`检测推荐驱动版本 - 安装适用于CUDA 12.x的驱动: ```bash sudo apt install nvidia-driver-535 ``` - 验证驱动:`nvidia-smi`应显示多块4090的PCIe连接状态 2. **CUDA工具链配置** - 安装CUDA 12.2: ```bash wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run sudo sh cuda_12.2.2_535.104.05_linux.run ``` - 配置环境变量: ```bash echo 'export PATH=/usr/local/cuda-12.2/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc ``` 3. **NCCL多卡通信库** ```bash sudo apt install libnccl2 libnccl-dev ``` #### 二、部署工具选择 采用**KTransformers框架**(引用[2])实现多卡负载均衡,其特性包括: - 原生支持多GPU张量并行 - 动态显存分配策略 - MoE架构优化(适用于DeepSeek-R1) #### 三、安装依赖包 ```bash # 创建虚拟环境 python -m venv ds_env && source ds_env/bin/activate # 安装PyTorch与加速库 pip install torch==2.1.0+cu121 torchvision==0.16.0+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 pip install ktransformers>=0.4.2 transformers==4.35.0 accelerate # 编译安装NVIDIA Apex(可选) git clone https://github.com/NVIDIA/apex cd apex && pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./ ``` #### 四、模型获取与配置 1. **下载DeepSeek-V3 16bit版本** ```bash huggingface-cli download deepseek-ai/DeepSeek-V3 --include "model-*.safetensors" --exclude "*.gguf" ``` 2. **创建设备映射文件`device_map.json`**: ```json { "transformer.embedding": 0, "transformer.layer.0": 0, "transformer.layer.1": 1, ... "transformer.layer.31": 1, "lm_head": 1 } ``` #### 五、多卡推理脚本 ```python from ktransformers import AutoModelForCausalLM from transformers import AutoTokenizer import torch model_path = "./deepseek-ai/DeepSeek-V3" tokenizer = AutoTokenizer.from_pretrained(model_path) # 多卡并行配置 model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", # 自动分配设备 max_memory={i: '24GiB' for i in range(torch.cuda.device_count())}, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True ) input_text = "解释量子纠缠现象" inputs = tokenizer(input_text, return_tensors="pt").to(0) # 输入分配到GPU0 outputs = model.generate( **inputs, max_new_tokens=1000, do_sample=True, temperature=0.7, top_p=0.9 ) print(tokenizer.decode(outputs[0])) ``` #### 六、启动参数优化 通过命令行控制显存分配: ```bash python -m ktransformers.local_chat \ --model_path deepseek-ai/DeepSeek-V3 \ --gpu_num 2 \ # 指定使用2块GPU --tensor_parallel_size 2 \ # 张量并行维度 --batch_size 8 \ --max_new_tokens 2048 ``` #### 七、验证多卡利用率 1. 监控工具: ```bash watch -n 1 nvidia-smi ``` 2. 预期输出应显示两块4090的显存占用和计算利用率均衡 #### 八、常见问题解决 1. **PCIe带宽瓶颈** - 执行`nvidia-smi topo -m`查看GPU连接拓扑 - 建议使用NVLink连接多卡(需硬件支持) 2. **显存不足警告** ```python # 启用激活检查点 model.gradient_checkpointing_enable() # 使用8bit量化 model = model.quantize(8) ``` 3. **多卡负载不均衡** 调整`device_map.json`手动指定层分布
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爷来辣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值