WSL + 4050 部署 Deepseek-7B 蒸馏模型

Lilixxs

已于 2025-03-09 04:17:49 修改

阅读量704

点赞数 15

分类专栏：环境搭建基础设施文章标签： ai ollama WSL AI工作流大模型大模型部署 centos

于 2025-03-06 16:52:54 首次发布

本文链接：https://blog.csdn.net/weixin_44112083/article/details/146074240

版权

基础设施同时被 2 个专栏收录

23 篇文章

订阅专栏

环境搭建

10 篇文章

订阅专栏

操作环境：WSL - Oracle Linux + RTX 4050 Laptop edition

渣渣笔记本实在是跑不了更大模型了😂

整体架构

WSL 配置显卡加速环境

总体流程

安装教程：https://zhuanlan.zhihu.com/p/681092042

总体流程：

优化 WSL 系统配置：配置更大的内存、禁用 SWAP 缓存
安装 N 卡驱动 nvidia-smi
安装 CUDA 驱动：CUDA Toolkit
安装 cudnn 加速库：cudnn

WSL 系统优化

实测时发现，由于 WSL 默认参数配置的内存太小，经常会启用 SWAP 内存（用硬盘空间充当虚拟内存），导致硬盘占用 100% 爆炸
因此调整 WSL 配置

参考资料：https://zhuanlan.zhihu.com/p/704210605

个人配置（我的电脑有 24G 内存，所以可以分多一点，大家自己的电脑看情况修改）：调大分配的内存、禁用 swap

[wsl2]
# 内存大小根据自身配置分配
memory=12GB

# 不使用swap,不会出现内存不足时使用硬盘充当虚拟内存，保证硬盘不会100%占用爆炸
swap=0

重启 WSL 的指令（在 windows 下的终端输出）

# 关闭所有 wsl
wsl --shutdown

# 获取发行版名称（下面指令输出结果中的 name 列）
wsl -l -v

# 启动某一发行版的 wsl（名称=上一指令的 name 列）
wsl -d <发行版名称>
# 启动默认 wsl （上面查询发行版名称，输出结果中带 * 号的为默认发行版）
wsl

安装 N 卡驱动 & cuda 驱动 -- nvidia-smi

参考网页：https://docs.nvidia.com/cuda/wsl-user-guide/index.html#getting-started-with-cuda-on-wsl

如果在 Windows 上已经正确安装了 WSL ，则驱动已经默认安装

执行nvidia-smi获取当前下显卡信息（我的渣渣笔记本 4050）

[lilixxs@lilixxs-LapPro16 lilixxs]$ nvidia-smi
Wed Feb 26 15:20:50 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.56                 Driver Version: 546.92       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4050 ...    On  | 00000000:01:00.0 Off |                  N/A |
| N/A   50C    P8               2W /  80W |    724MiB /  6141MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

安装 GCC

CUDA 驱动要求安装 gcc（C 语言编译器）

参考教程：https://juejin.cn/post/7369413136225779764

相关指令（注意要加--allowerasing参数，允许升级gcc编译器相关文件）

sudo dnf install -y --allowerasing glibc gcc

安装 CUDA 驱动 -- CUDA Toolkit

安装包下载地址：https://developer.nvidia.com/cuda-toolkit-archive

注意：

这里需要根据驱动选择对应的 CUDA 版本，根据《CUDA 版本发布说明》选择具体版本
CUDA 版本发布说明：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
需要下载WSL专版
我的 WSL 系统是 Oracle Linux 8.7 ，不是 Ubuntu，因此无法安装 deb 软件包，只能通过 lrunfile 方式安装

安装 CUDA 机器学习加速包 -- cudnn

安装文档：https://docs.nvidia.com/deeplearning/cudnn/installation/latest/linux.html#installing-the-cuda-toolkit-for-linux

安装 zlib

sudo dnf install -y zlib

安装 cudnn 软件包

https://developer.nvidia.com/cudnn-downloads

按需要选择对应版本，支持信息：https://docs.nvidia.com/deeplearning/cudnn/backend/v9.7.1/reference/support-matrix.html

我安装的系统是 Oracle Linux 8.7 ，属于 RHEL 8 的衍生发行版，因此选择 RHEL 8 版本

也可以从存档页面中下载：https://developer.download.nvidia.cn/compute/cudnn/redist/cudnn/

下载安装包

# 链接模版
wget https://developer.download.nvidia.com/compute/cudnn/9.x.y/local_installers/cudnn-local-repo-$distro-9.x.y-1.0-1.$architecture.rpm
# 其中
# 9.x.y = cudnn 库的版本 --> 9.7.1
# distro = 发行版 --> rhel8
# architecture = 硬件架构 --> x86_64

# 根据以上配置生成的真正地址
wget https://developer.download.nvidia.com/compute/cudnn/9.7.1/local_installers/cudnn-local-repo-rhel8-9.7.1-1.0-1.x86_64.rpm

安装本地包

# 设置执行权限
chmod a+x cudnn-local-repo-rhel8-9.7.1-1.0-1.x86_64.rpm
# 安装下载的软件包（设置为本地源）
sudo rpm -i cudnn-local-repo-rhel8-9.7.1-1.0-1.x86_64.rpm
sudo dnf clean all
# 安装软件包
sudo dnf -y install --allowerasing cudnn9-cuda-12

也可使用网络安装

启用仓库

# 示例模版
sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/$distro/$arch/cuda-$distro.repo

# distro 和 arch 参考下文
# 对于 Oracle Linux 8.7 --> distro=rhel8, arch=x86_64
sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
sudo dnf clean all

distro 和 arch 对应发行版和硬件架构，有如下选择 Oracle Linux 8.7 基于 RHEL 8，因此使用选择distro=rhel8和arch=x86_64

安装软件包（注意对应 CUDA 版本，CUDA 12 或 CUDA 11 ）

sudo dnf -y install cudnn-cuda-12

注意：软件包很大（2.1 GB），需要耐心等待下载完成

AI 运行环境 -- ollama

docker 加速支持 -- 安装 nvidia Container Toolkit 软件包

这里使用 ollama 的 docker 镜像来运行

官方文章（在 github 上，需要梯子）：https://github.com/ollama/ollama/blob/main/docs/docker.md

使用 yum 源进行安装

注意：以下操作都需要梯子，请自行准备，否则是龟速

配置生产存储库

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

配置存储库以使用实验性软件包

sudo yum-config-manager --enable nvidia-container-toolkit-experimental

安装 NVIDIA Container Toolkit 软件包

sudo yum install -y nvidia-container-toolkit

配置应用 Container Toolkit 环境，然后重启 docker 服务

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

安装 docker 版 ollama

参考网址：https://github.com/ollama/ollama/blob/main/docs/docker.md

拉取并运行 docker 镜像

 docker run -d --gpus=all -v ~/docker_data/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

-d：后台运行
--gpus=all使用所有的 GPU 资源（可惜我只有自带的一张渣渣 4050 显卡）
-v ~/docker_data/ollama:/root/.ollama映射数据，将 ollama 下载的内容保存到 WSL 系统的 ~/docker_data/ollama 路径下
-p 11434:11434映射端口，将11434端口暴露出来，此端口也是后台服务的端口

注意：容器比较大（有一层有 1.6G），需要耐心等待

然后进入容器中（使用docker exec指令）

docker exec -it ollama bash

即可执行ollama的相关指令

ollama 拉取部署模型

基本步骤

从网上下载模型：ollama pull
查看已经下载的模型：ollama list
1. 删除模型：ollama rm <模型名称>
2. 复制模型：ollama cp <模型名称>
3. 查看正在运行的模型：ollama ps
运行模型
1. 本地运行：ollama run
2. 提供后台服务（API）：ollama serve

在线拉取模型（ollama pull）

这里选择的是7B模型

ollama pull deepseek-r1:7b

注意：模型比较大（4.7 GB），需要翻墙，且需要耐心等待

查看已经下载的模型（ollama list）

在 docker 容器内，输入以下指令，可看到已经下载的模型，模型名称，模型大小（占用的硬盘空间）等信息

ollama list

管理模型的相关指令

在 docker 容器内，输入以下指令管理已经下载的模型：

删除已经下载的模型：ollama rm <模型名称>
复制模型：ollama cp <模型名称> <新模型名称>
查看正在运行的模型：ollama ps

ollama 运行模型

在命令行中运行模型

进入到容器中，然后运行下方指令，可在命令行中进行对话

ollama run <模型名称>

# 示例
ollama run deepseek-r1:7b

在send a message中输入想要对话的内容即可

回答内容中，<think>范围内为思考链的内容，范围外为真正回答的结果

注意：这种运行方式不是很稳定，且功能较少，主要用于测试，实际使用中应尽量避免这种运行方法

提供后台服务（API）

如果按照以上来部署（部署 docker 容器版的 ollama），则 docker 容器启动时（输入 docker run 指令）后台服务就已经开启了
如果是直接部署在自己的 linux 系统上，则需要以下指令来启动 ollama 后台服务
```
ollama serve
```

客户端测试连接

完成以上步骤后，即可使用客户端测试进行连接了

这里使用的是cherry studio。这是一款开源、功能强大、由国人大佬开发的 AI 客户端

官方网址：https://cherry-ai.com/

在软件界面，点击左下角进入:设置 --> 模型服务 --> Ollama

如果是本地部署，则

API 秘钥留空
API 地址 = WSL 系统的 IP 地址: docker 容器暴露的端口
- WSL 系统的 IP 地址
  在 WSL 系统中（容器外的 Linux 系统），输入ifconfig查看 eth 开头的网络的 ip 地址（这里为 172.23.199.255）
- docker 容器暴露的端口（默认为 11434）
  在 WSL 系统中，输入docker ps -a指令，查看 ollama 容器的暴露端口，看箭头前的端口号（这里是 11434）
- 因此最后填的内容为http://172.23.199.255:11434/v1/
模型
- 新增的时候，点击【添加】；修改既有的，点击【修改】
- 添加模型时
  - 模型 ID，在 ollama 容器中，输入查看已经下载的模型指令ollama list，查看 name（如这里选用deepseek-r1:7b）
  - 模型名称、分组名称可任意填，此客户端在界面会显示模型名称和分组

设置完成，就可以进行对话了

可以看出，此时的问答只是最基础的问答：

只能使用最基本的对话，无法从自己的知识库中获取信息
提示词比较固定，效果较差
一次运行只能支持一次对话，无法创建自动化的流程（如多次问答实现复杂、具体的输出）
缺乏权鉴、流控、敏感词筛选等功能，接口直接暴露，安全性不足

这就是为何要使用 Agent 平台的原因

Agent 平台

平台选型

目前（2025-3-3）最火的 Agent 平台（免费开源、功能完善、社区活跃）有以下两个

Dify：https://dify.ai/zh
FastGPT：https://fastgpt.cn/zh

这里选择 FastGPT 进行测试

FastGPT 整体操作流程

运行基础模型
1. 运行 AI 模型（之前部署 Ollama 已经实现了）
2. 运行向量模型，用于知识库导入数据的处理（接下来要安装相关模型）
部署 FastGPT 系统（使用 docker-compose 进行部署）
1. fastGPT 前端项目 + fastGPT sandbox 后台服务
2. AI接口接入 = One API
3. 向量数据库 = pgvector
4. 数据数据库 = mongodb + mysql
配置 FastAPI 系统
1. 配置 AI 模型的渠道（统一从 One API 接入各种厂商的模型）
  1. 配置 AI 模型（上面部署的 ollama）
  2. 配置向量模型
2. 配置 FastAPI 从 One API 的对应渠道调用 AI 模型
3. 创建知识库，并使用向量模型处理导入的数据
4. 创建聊天，并调用知识库数据

运行基础模型（向量模型：bge-m3）

向量模型用于处理知识库相关内容

将文本切分为不同分段
根据提问，搜索并返回最接近的分段，供大语言模型的回答进行参考

以下为按照官方文档部署的 m3e 模型，实测无法正常启动

参考资料：https://zhuanlan.zhihu.com/p/675271031

这里选用GPU 运行的版本，运行指令如下

docker run -d --name m3e -p 6008:6008 --gpus all registry.cn-hangzhou.aliyuncs.com/fastgpt_docker/m3e-large-api

尝试从 ollama 拉取、部署向量模型（和上文部署模型步骤相同，这里快速过一下）

使用 bge-m3向量模型，这也是一款偏向中文的、性能优秀的向量模型。官方介绍（在 github 需要梯子）：https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md

# 进入 ollama
docker exec -it 439c6914c120 bash

# 拉取向量模型
ollama pull bge-m3

# 查看模型是否已经下载
ollama ls

部署 FastGPT 系统

根据官网步骤进行安装：https://doc.fastgpt.cn/docs/development/docker/

使用docker-compose方法进行部署，这里使用 pgvector 版本，部署比较简单

pgvector、milvus、zilliz 是不同的向量数据库，性能、硬件要求不同

zilliz 是云服务版的向量数据库，需要花钱
剩下 2 个数据库，性能和硬件要求由低到高：pgvector、milvus

注意：这里需要下载 6 个软件包（one-api、fastgpt、mysql、mongodb、pgvector、sandbox），需要一些时间，请耐心等待

问题1：mongodb 报错

状况：mongodb 容器反复重启，oneapi 和 fastgpt 界面都打不开。查看 mongodb 日志，一直有报错

问题原因：mongodb 的 replica set （副本集）初始化不成功

参考解决方法：https://doc.fastgpt.cn/docs/development/docker/#mongo-%e5%89%af%e6%9c%ac%e9%9b%86%e8%87%aa%e5%8a%a8%e5%88%9d%e5%a7%8b%e5%8c%96%e5%a4%b1%e8%b4%a5

进入 mongodb 的docker 容器

# 以上图为例，momgodb 容器的 id = fe6faa01e32e
docker exec -it fe6faa01e32e bash

进入 mongodb 的容器内部后，执行以下指令，初始化 mongodb

# 连接数据库（这里要填Mongo的用户名和密码）
# mongodb 的用户名，默认为 myusername
# mongodb 的密码，默认为 mypassword
mongo -u myusername -p mypassword --authenticationDatabase admin

# 初始化副本集，只有一个单节点（容器本身的节点） mongo:27017 。
# 如果需要外网访问，需要增加Mongo连接参数：directConnection=true
rs.initiate({
  _id: "rs0",
  members: [
    { _id: 0, host: "mongo:27017" }
  ]
})

# 检查状态。如果提示 rs0 状态为 ok: 1，则代表运行成功
rs.status()

auth 中的用户名、密码在docker-compose.yaml文件中位置如下
1. MONGO_INITDB_ROOT_USERNAME = 用户名，默认为 myusername
2. MONGO_INITDB_ROOT_PASSWORD = 密码，默认为 mypassword
运行成功时rs.status()输出的部分内容，有ok: 1就说明执行成功了