大模型本地化部署（一）——Ollama保姆级安装教程

柯凡同学

已于 2025-05-21 09:48:14 修改

阅读量1.2k

点赞数 20

文章标签： python 人工智能语言模型 llama chatgpt

于 2025-05-21 09:39:30 首次发布

本文链接：https://blog.csdn.net/weixin_51975222/article/details/147923407

版权

请添加图片描述

文章目录

- 大模型本地化部署（一）——Ollama安装教程（Windows版）

大模型本地化部署（一）——Ollama安装教程（Windows版）

环境要求

操作系统: Windows 10/11（64位）
内存: 建议8GB及以上（运行大模型需更高内存）
存储空间: 至少10GB可用空间（模型文件通常较大）
网络: 需稳定连接（下载模型依赖网络）

安装步骤

1. 下载安装包

访问 Ollama官网下载页，选择 Download for Windows 获取安装程序（OllamaSetup.exe）。
在这里插入图片描述

2. 运行安装程序

双击安装包，按提示完成安装（默认路径为 C:\Users\<用户名>\.ollama）。
安装完成后，验证是否成功：
```
ollama --version
```
若输出版本号（如 ollama version 0.xx.xx），则安装成功。

环境变量配置

1. 基础路径配置

目的: 确保命令行全局调用 ollama 命令。
步骤:
1. 右键 此电脑 → 属性 → 高级系统设置 → 环境变量。
2. 在 系统变量 中选中 Path → 编辑 → 新建，添加路径：
```
C:\Users\<你的用户名>\.ollama\bin
```
3. 替换 <你的用户名> 为实际用户名（如 C:\Users\John\.ollama\bin）。

2. 高级环境变量配置

通过以下变量优化存储、性能和网络行为：

变量名	作用说明	默认值	推荐设置示例
OLLAMA_MODELS	模型文件存储路径（避免占用C盘空间）	`C:\Users\%username%\.ollama\models`	`D:\OllamaModels`
OLLAMA_HOST	服务监听地址（允许局域网访问需修改）	`127.0.0.1`	`0.0.0.0`（开放所有IP）
OLLAMA_PORT	服务监听端口	`11434`	`8080`（端口冲突时修改）
OLLAMA_ORIGINS	允许的HTTP请求来源（`*`表示允许所有）	无（默认仅本地访问）	`*`
OLLAMA_KEEP_ALIVE	模型内存驻留时间（减少重复加载耗时）	`5m`（5分钟）	`24h`（24小时）
OLLAMA_NUM_PARALLEL	并发请求处理数（提升吞吐量）	`1`（单并发）	`4`（根据CPU核心数调整）
OLLAMA_MAX_QUEUE	最大请求队列长度（队列满时丢弃新请求）	`512`	`1024`（高并发场景调整）
OLLAMA_DEBUG	启用调试日志（排查问题时开启）	无（默认关闭）	`1`
OLLAMA_MAX_LOADED_MODELS	内存中同时加载的最大模型数量	`1`	`2`（根据内存容量调整）

配置方法（任选其一）：

图形界面：通过系统属性添加环境变量

命令行（管理员权限）：

setx OLLAMA_MODELS "D:\OllamaModels" /M
setx OLLAMA_HOST "0.0.0.0" /M
setx OLLAMA_KEEP_ALIVE "24h" /M

3. 验证配置

打开新命令行窗口，检查变量是否生效：
```
echo %OLLAMA_MODELS%
echo %OLLAMA_HOST%
```
启动服务验证监听状态：
```
ollama serve
```
若输出显示 Listening on 0.0.0.0:11434（或自定义端口），则配置成功。

Ollama常用指令

指令	功能描述	示例
`ollama run <模型名>`	运行指定模型	`ollama run llama2`
`ollama list`	列出已下载的模型	`ollama list`
`ollama ps`	查看当前运行的模型实例	`ollama ps`
`ollama pull <模型名>`	下载模型（不直接运行）	`ollama pull mistral`
`ollama rm <模型名>`	删除指定模型	`ollama rm llama2`
`ollama serve`	启动本地API服务（默认端口11434）	`ollama serve`

在这里插入图片描述

基础使用示例

1. 运行Llama 2模型

ollama run llama2

首次运行会自动下载模型文件（约4GB）。
输入 /? 查看交互帮助，按 Ctrl+D 退出。

2. 通过API调用

启动服务后，可通过HTTP请求调用：

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Hello"
}'

常见问题处理

1. 命令未识别 (`'ollama' is not recognized`)

原因: 环境变量未生效。
解决:
1. 检查环境变量路径是否正确。
2. 重启命令行工具或系统。

2. 模型下载失败

原因: 网络连接问题。
解决:
1. 使用代理工具（如配置HTTP_PROXY环境变量）。
2. 尝试手动下载模型文件。

3. 显存不足 (`CUDA out of memory`)

解决:
1. 选择更小模型（如 tinyllama）。
2. 关闭其他占用GPU资源的程序。

附：推荐模型列表

模型名称	大小	适用场景
`llama2`	4GB	通用文本生成
`mistral`	5GB	多语言支持
`codellama`	7GB	代码生成与补全
`tinyllama`	1.1GB	低资源环境

总结

本文档提供了Ollama在Windows系统的完整安装与配置流程，涵盖基础指令和常见问题解决方案。后续将深入探讨模型微调、API集成及性能优化。如有问题，请参考 Ollama官方文档。