Windows本地部署DeepSeek-R1(可使用GPU加速)【Ollama+AnythingLLM】

本地部署大语言模型的成熟路径是硬件加速支持库(如需GPU加速)+本地大语言模型运行框架+本地AI应用用户界面,本文以安装有NVIDIA GPUWindows系统为例,在本地部署DeepSeek-R1模型,选用的本地大语言模型运行框架是Ollama、本地AI应用用户界面是AnythingLLM

NVIDIA GPU加速

注意:如果没有GPU或不需要GPU加速,可以直接跳过此部分。
1. GPU计算能力检查:Ollama 支持计算能力 5.0 及以上的 NVIDIA GPU。可在以下链接查看显卡的计算能力:Ollama文档提供常见NVIDIA GPU的计算能力供大家快速检索:

| Compute Capability | Family              | Cards                                                                                                       |
| ------------------ | ------------------- | ----------------------------------------------------------------------------------------------------------- |
| 9.0                | NVIDIA              | `H100`                                                                                                      |
| 8.9                | GeForce RTX 40xx    | `RTX 4090` `RTX 4080` `RTX 4070 Ti` `RTX 4060 Ti`                                                           |
|                    | NVIDIA Professional | `L4` `L40` `RTX 6000`                                                                                       |
| 8.6                | GeForce RTX 30xx    | `RTX 3090 Ti` `RTX 3090` `RTX 3080 Ti` `RTX 3080` `RTX 3070 Ti` `RTX 3070` `RTX 3060 Ti` `RTX 3060`         |
|                    | NVIDIA Professional | `A40` `RTX A6000` `RTX A5000` `RTX A4000` `RTX A3000` `RTX A2000` `A10` `A16` `A2`                          |
| 8.0                | NVIDIA              | `A100` `A30`                                                                                                |
| 7.5                | GeForce GTX/RTX     | `GTX 1650 Ti` `TITAN RTX` `RTX 2080 Ti` `RTX 2080` `RTX 2070` `RTX 2060`                                    |
|                    | NVIDIA Professional | `T4` `RTX 5000` `RTX 4000` `RTX 3000` `T2000` `T1200` `T1000` `T600` `T500`                                 |
|                    | Quadro              | `RTX 8000` `RTX 6000` `RTX 5000` `RTX 4000`                                                                 |
| 7.0                | NVIDIA              | `TITAN V` `V100` `Quadro GV100`                                                                             |
| 6.1                | NVIDIA TITAN        | `TITAN Xp` `TITAN X`                                                                                        |
|                    | GeForce GTX         | `GTX 1080 Ti` `GTX 1080` `GTX 1070 Ti` `GTX 1070` `GTX 1060` `GTX 1050`                                     |
|                    | Quadro              | `P6000` `P5200` `P4200` `P3200` `P5000` `P4000` `P3000` `P2200` `P2000` `P1000` `P620` `P600` `P500` `P520` |
|                    | Tesla               | `P40` `P4`                                                                                                  |
| 6.0                | NVIDIA              | `Tesla P100` `Quadro GP100`                                                                                 |
| 5.2                | GeForce GTX         | `GTX TITAN X` `GTX 980 Ti` `GTX 980` `GTX 970` `GTX 960` `GTX 950`                                          |
|                    | Quadro              | `M6000 24GB` `M6000` `M5000` `M5500M` `M4000` `M2200` `M2000` `M620`                                        |
|                    | Tesla               | `M60` `M40`                                                                                                 |
| 5.0                | GeForce GTX         | `GTX 750 Ti` `GTX 750` `NVS 810`                                                                            |
|                    | Quadro              | `K2200` `K1200` `K620` `M1200` `M520` `M5000M` `M4000M` `M3000M` `M2000M` `M1000M` `K620M` `M600M` `M500M`  |

2. 安装CUDA toolkit:在此链接下载CUDA toolkit,注意选择Windows的版本(如Win10、Win11等),建议下载local安装类型。此下载需要NVIDIA账号,请注册。安装完成后需重启电脑使配置生效。

本地大语言模型运行框架Ollama及DeepSeek-R1模型安装

1. Ollama安装:在Ollama官网下载Ollama并安装,此步骤极为简单,不在此赘述了。安装启动后,Ollama是在后台运行的,检查右下角托盘里有没有Ollama的Logo就可以了。

2. 通过Ollama安装DeepSeek-R1模型Ollama模型库中包含多种支持的大语言模型,如DeepSeek-R1,Lamma3.3等:
在这里插入图片描述
进入deepseek-r1集合,按下图顺序选择参数数量和复制安装命令。注意GPU显存(或本地主机的内存,如果仅使用CPU)限制了可以使用的模型的大小,16GB显存的GPU可以运行14b的模型,24GB显存的GPU可以运行32b的模型。这里本人选择14b的模型,复制命令后在Powershell里执行,ollama会自动安装相应版本的deepseek-r1模型,只需等待命令运行结束即可:

ollama run deepseek-r1:14b

在这里插入图片描述

本地AI应用用户界面安装

实际上,通过Ollama安装完DeepSeek-R1模型后,在Powershell中可以直接运行,只需要在Powershell里再次执行:

ollama run deepseek-r1:14b

在这里插入图片描述
但是,在Powershell此类terminal中直接运行的话,难以保存、搜索、管理对话记录、难以读取附件、无法集成本地知识库实现检索增强生成(Retrieval-Augmented Generation,RAG)等功能,对用户十分不友好。因此,十分推荐大家安装一个本地AI应用用户界面,常用的有AnythingLLM、Open WebUI等。本文选择AnythingLLM作为示范。

AnythingLLM安装与配置:在AnythingLLM官网下载AnythingLLM并安装,此步骤亦十分简单,不再赘述。安装启动后,选择Ollama(注意不是DeepSeek)为LLMProvider,会自动检查本地部署的大语言模型,选择deepseek-r1:14b即可。创建Workspace后,即可开始对话:

在这里插入图片描述
AnythingLLM的功能请自行探索。

### DeepSeekOllama、OpenWebUI 和 AnythingLLM 的局域网本地部署及调用方法 #### 部署准备 为了在局域网中成功部署和调用这些服务,需先确认基础环境已经搭建完毕。通常情况下,Ollama 是核心组件之一,它提供了轻量级的推理能力,并支持多种大型语言模型(LLMs)。以下是具体的部署流程: --- #### 1. 安装 Docker 并拉取 Ollama 镜像 Docker 是运行 Ollama 的必要工具。通过以下命令可以安装并启动 Ollama: ```bash docker pull ollama/ollama docker run -d -p 11434:11434 -v /data/ollama:/root/.ollama --name ollama ollama/ollama ``` 如果设备具备 GPU 支持,则可以通过 `--gpus` 参数启用 GPU 加速模式[^4]。 进入容器后可进一步下载所需的模型文件: ```bash docker exec -it ollama /bin/bash ollama pull deepseek-r1:8b ``` 上述操作完成后,Ollama 将作为 HTTP API 接口提供服务,默认监听端口为 `11434`。 --- #### 2. 使用 OpenWebUI 调用 Ollama OpenWebUI 是一款图形化界面工具,能够简化与 LLMs 的交互过程。其配置方式如下所示: - **克隆仓库**:从 GitHub 获取最新版本代码。 ```bash git clone https://github.com/open-web-ui/webui.git cd webui ``` - **修改配置文件**:编辑 `config.json` 文件以指定目标地址指向本地图形接口的服务路径。 ```json { "api_url": "http://<服务器IP>:11434", "model_name": "deepseek-r1" } ``` 此处 `<服务器IP>` 应替换为实际主机 IP 地址或域名。 - **启动 Web UI** ```bash npm install && npm start ``` 此时访问浏览器中的 URL 即可通过可视化界面对接至后台运行的 Ollama 实例。 --- #### 3. 添加 AnyThingLLM 插件扩展功能 AnyThingLLM 可视为一种增强型插件框架,允许开发者轻松集成第三方资源库或者定制专属逻辑模块。具体实现步骤包括但不限于以下几个方面: - 确定所需加载的功能集; - 编写适配器脚本来桥接不同平台间的数据流传输协议; - 测试最终效果验证兼容性和稳定性。 例如,在 Python 中创建一个简单的客户端程序用于发送请求给远程节点: ```python import requests url = 'http://localhost:11434/api/generate' payload = {"prompt":"hello world","max_tokens":50} response = requests.post(url, json=payload) print(response.text) ``` 以上片段展示了如何利用 RESTful APIs 来获取预测结果[^1]。 --- #### 总结说明 综上所述,整个工作流涵盖了从基础设施建设到高级特性开发等多个层面的内容。借助于现代化 DevOps 工具链的支持,即使是在缺乏专用硬件加速卡的情况下也能顺利完成任务需求[^2]。
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值