文章目录
大模型本地化部署(一)——Ollama安装教程(Windows版)
环境要求
- 操作系统: Windows 10/11(64位)
- 内存: 建议8GB及以上(运行大模型需更高内存)
- 存储空间: 至少10GB可用空间(模型文件通常较大)
- 网络: 需稳定连接(下载模型依赖网络)
安装步骤
1. 下载安装包
访问 Ollama官网下载页,选择 Download for Windows 获取安装程序(OllamaSetup.exe
)。
2. 运行安装程序
- 双击安装包,按提示完成安装(默认路径为
C:\Users\<用户名>\.ollama
)。 - 安装完成后,验证是否成功:
若输出版本号(如ollama --version
ollama version 0.xx.xx
),则安装成功。
环境变量配置
1. 基础路径配置
-
目的: 确保命令行全局调用
ollama
命令。 -
步骤:
-
右键 此电脑 → 属性 → 高级系统设置 → 环境变量。
-
在 系统变量 中选中
Path
→ 编辑 → 新建,添加路径:C:\Users\<你的用户名>\.ollama\bin
-
替换
<你的用户名>
为实际用户名(如C:\Users\John\.ollama\bin
)。
-
2. 高级环境变量配置
通过以下变量优化存储、性能和网络行为:
变量名 | 作用说明 | 默认值 | 推荐设置示例 |
---|---|---|---|
OLLAMA_MODELS | 模型文件存储路径(避免占用C盘空间) | C:\Users\%username%\.ollama\models | D:\OllamaModels |
OLLAMA_HOST | 服务监听地址(允许局域网访问需修改) | 127.0.0.1 | 0.0.0.0 (开放所有IP) |
OLLAMA_PORT | 服务监听端口 | 11434 | 8080 (端口冲突时修改) |
OLLAMA_ORIGINS | 允许的HTTP请求来源(* 表示允许所有) | 无(默认仅本地访问) | * |
OLLAMA_KEEP_ALIVE | 模型内存驻留时间(减少重复加载耗时) | 5m (5分钟) | 24h (24小时) |
OLLAMA_NUM_PARALLEL | 并发请求处理数(提升吞吐量) | 1 (单并发) | 4 (根据CPU核心数调整) |
OLLAMA_MAX_QUEUE | 最大请求队列长度(队列满时丢弃新请求) | 512 | 1024 (高并发场景调整) |
OLLAMA_DEBUG | 启用调试日志(排查问题时开启) | 无(默认关闭) | 1 |
OLLAMA_MAX_LOADED_MODELS | 内存中同时加载的最大模型数量 | 1 | 2 (根据内存容量调整) |
配置方法(任选其一):
-
图形界面:通过系统属性添加环境变量
-
命令行(管理员权限):
setx OLLAMA_MODELS "D:\OllamaModels" /M setx OLLAMA_HOST "0.0.0.0" /M setx OLLAMA_KEEP_ALIVE "24h" /M
3. 验证配置
-
打开新命令行窗口,检查变量是否生效:
echo %OLLAMA_MODELS% echo %OLLAMA_HOST%
-
启动服务验证监听状态:
ollama serve
若输出显示
Listening on 0.0.0.0:11434
(或自定义端口),则配置成功。
Ollama常用指令
指令 | 功能描述 | 示例 |
---|---|---|
ollama run <模型名> | 运行指定模型 | ollama run llama2 |
ollama list | 列出已下载的模型 | ollama list |
ollama ps | 查看当前运行的模型实例 | ollama ps |
ollama pull <模型名> | 下载模型(不直接运行) | ollama pull mistral |
ollama rm <模型名> | 删除指定模型 | ollama rm llama2 |
ollama serve | 启动本地API服务(默认端口11434) | ollama serve |
基础使用示例
1. 运行Llama 2模型
ollama run llama2
- 首次运行会自动下载模型文件(约4GB)。
- 输入
/?
查看交互帮助,按Ctrl+D
退出。
2. 通过API调用
启动服务后,可通过HTTP请求调用:
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "Hello"
}'
常见问题处理
1. 命令未识别 ('ollama' is not recognized
)
- 原因: 环境变量未生效。
- 解决:
- 检查环境变量路径是否正确。
- 重启命令行工具或系统。
2. 模型下载失败
- 原因: 网络连接问题。
- 解决:
- 使用代理工具(如配置HTTP_PROXY环境变量)。
- 尝试手动下载模型文件。
3. 显存不足 (CUDA out of memory
)
- 解决:
- 选择更小模型(如
tinyllama
)。 - 关闭其他占用GPU资源的程序。
- 选择更小模型(如
附:推荐模型列表
模型名称 | 大小 | 适用场景 |
---|---|---|
llama2 | 4GB | 通用文本生成 |
mistral | 5GB | 多语言支持 |
codellama | 7GB | 代码生成与补全 |
tinyllama | 1.1GB | 低资源环境 |
总结
本文档提供了Ollama在Windows系统的完整安装与配置流程,涵盖基础指令和常见问题解决方案。后续将深入探讨模型微调、API集成及性能优化。如有问题,请参考 Ollama官方文档。