Ollama 服务配置-常用环境变量

最新推荐文章于 2025-06-13 21:25:46 发布

zhangxiangweide

最新推荐文章于 2025-06-13 21:25:46 发布

阅读量2.3w

点赞数 16

CC 4.0 BY-SA版权

文章标签： ollama

本文链接：https://blog.csdn.net/zhangxiangweide/article/details/144281962

在 Linux 上设置环境变量

1. 通过调用systemctl edit ollama.service编辑 systemd 服务。这将打开一个编辑器。这边可以直接通过vim /etc/systemd/system/ollama.service，打开编辑。
2. 对于每个环境变量，在[Service]部分下添加一行Environment：

vim /etc/systemd/system/ollama.service
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_DEBUG=1"
Environment="OLLAMA_FLASH_ATTENTION=1"

对于每个环境变量，在[Service]部分下添加一行Environment.
1. OLLAMA_HOST=0.0.0.0 外网访问
2. OLLAMA_MODELS=/mnt/data/.ollama/models 模型默认下载路径
3. OLLAMA_KEEP_ALIVE=24h 设置模型加载到内存中保持 24 个小时(默认情况下，模型在卸载之前会在内存中保留 5 分钟)
4. OLLAMA_HOST=0.0.0.0:8080 修改默认端口 11434 端口
5. OLLAMA_NUM_PARALLEL=2 设置 2 个用户并发请求
6. OLLAMA_MAX_LOADED_MODELS=2 设置同时加载多个模型

#为了使更改生效，您需要重新加载systemd的配置。使用以下命令：
sudo systemctl daemon-reload
#最后，重启服务以应用更改：
sudo systemctl restart ollama

默认情况下，ollama模型的存储目录如下：
macOS: `~/.ollama/models` 
Linux: `/usr/share/ollama/.ollama/models`  
Windows: `C:\Users\<username>\.ollama\models`

journalctl -u ollama | grep -i 'prompt='    #查看日志
/set verbose    #设置以查看token速度

配置 Ollama

Ollama 提供了多种环境变量以供配置：

OLLAMA_DEBUG：是否开启调试模式，默认为 false。
OLLAMA_FLASH_ATTENTION：是否闪烁注意力，默认为 true。
OLLAMA_HOST：Ollama 服务器的主机地址，默认为空。
OLLAMA_KEEP_ALIVE：保持连接的时间，默认为 5m。
OLLAMA_LLM_LIBRARY：LLM 库，默认为空。
OLLAMA_MAX_LOADED_MODELS：最大加载模型数，默认为 1。
OLLAMA_MAX_QUEUE：最大队列数，默认为空。
OLLAMA_MAX_VRAM：最大虚拟内存，默认为空。
OLLAMA_MODELS：模型目录，默认为空。
OLLAMA_NOHISTORY：是否保存历史记录，默认为 false。
OLLAMA_NOPRUNE：是否启用剪枝，默认为 false。
OLLAMA_NUM_PARALLEL：并行数，默认为 1。
OLLAMA_ORIGINS：允许的来源，默认为空。
OLLAMA_RUNNERS_DIR：运行器目录，默认为空。
OLLAMA_SCHED_SPREAD：调度分布，默认为空。
OLLAMA_TMPDIR：临时文件目录，默认为空。Here is the optimized list in the desired format:
OLLAMA_DEBUG：是否开启调试模式，默认为 false。
OLLAMA_FLASH_ATTENTION：是否闪烁注意力，默认为 true。
OLLAMA_HOST：Ollama 服务器的主机地址，默认为空。
OLLAMA_KEEP_ALIVE：保持连接的时间，默认为 5m。
OLLAMA_LLM_LIBRARY：LLM 库，默认为空。
OLLAMA_MAX_LOADED_MODELS：最大加载模型数，默认为 1。
OLLAMA_MAX_QUEUE：最大队列数，默认为空。
OLLAMA_MAX_VRAM：最大虚拟内存，默认为空。
OLLAMA_MODELS：模型目录，默认为空。
OLLAMA_NOHISTORY：是否保存历史记录，默认为 false。
OLLAMA_NOPRUNE：是否启用剪枝，默认为 false。
OLLAMA_NUM_PARALLEL：并行数，默认为 1。
OLLAMA_ORIGINS：允许的来源，默认为空。
OLLAMA_RUNNERS_DIR：运行器目录，默认为空。
OLLAMA_SCHED_SPREAD：调度分布，默认为空。
OLLAMA_TMPDIR：临时文件目录，默认为空。

Ollama使用常见的指令：

ollama serve         #启动ollama  
ollama create        #从模型文件创建模型  
ollama show          #显示模型信息  
ollama run           #运行模型  
ollama pull          #从注册表中拉取模型  
ollama push          #将模型推送到注册表  
ollama list          #列出模型  
ollama cp            #复制模型  
ollama rm            #删除模型  
ollama help          #获取有关任何命令的帮助信息

导入huggingface模型

最新版Ollama开始支持从Huggingface Hub上直接拉取各种模型，包括社区创建的GGUF量化模型。用户可以通过简单的命令行指令快速运行这些模型，可以使用如下命令：

ollama run hf.co/{username}/{repository}

要选择不同的量化方案，只需在命令中添加一个标签：

ollama run hf.co/{username}/{repository}:{quantization}

例如：量化名称不区分大小写
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M  
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0

还可以直接使用完整的文件名作为标签：  
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Llama-3.2-3B-Instruct-IQ3_M.gguf

手动安装

下载并解压压缩包


curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

启动ollama
ollama serve

安装特定版本

OLLAMA_VERSION环境变量与安装脚本一起使用，以安装特定版本的 Ollama，包括预发行版。可以在 releases 页面中找到版本号。

releases页面：https://github.com/ollama/ollama/releases

例如：
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.9 sh

查看日志

要查看作为服务运行的 Ollama 的日志，请运行：


journalctl -e -u ollama