Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。Ollama 是一个基于 Go 语言开发的本地大模型运行框架!它可以帮助用户在本地快速运行大模型
以下是其主要特点和功能概述:
- 简化部署:Ollama 目标在于简化在 Docker 容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。
- 轻量级与可扩展:作为轻量级框架,Ollama 保持了较小的资源占用,同时具备良好的可扩展性,允许用户根据需要调整配置以适应不同规模的项目和硬件条件。
- API支持:提供了一个简洁的 API,使得开发者能够轻松创建、运行和管理大型语言模型实例,降低了与模型交互的技术门槛。
- 预构建模型库:包含一系列预先训练好的大型语言模型,用户可以直接选用这些模型应用于自己的应用程序,无需从头训练或自行寻找模型源。
服务器配置要求
环境 | 最低配置 | 推荐配置 |
---|---|---|
测试 | 2核 2GB | 2核 4GB |
100w 组向量 | 4核 8GB 50GB | 4核 16GB 50GB |
500w 组向量 | 8核 32GB 200GB | 16核 48GB 200GB |
1000w 组向量 | 16核 48GB 200GB | 32核 64GB 500GB |
安装 Docker
下载 Docker 并安装
安装 Ollama
下载 Ollama 并安装
下载 Chat 模型
- 4b 模型要 3GB内存
- 7b 模型要 8GB 内存
- 14b 模型要 16GB 内存
- 70b 模型要 64GB 内存
下载模型
ollama pull qwen:7b
测试API请求
等模型下载和安装好后,执行下面的命令,测试API请求是否成功
Windows下执行:
curl "http://localhost:11434/api/chat" ^
--data "{""model"": ""qwen:7b"", ""messages"": [{""role"": ""user"", ""content"": ""你是谁""}], ""temperature"": 0.1, ""stream"": false}"