ollama如何保持模型加载在内存（显存）中或立即卸载

AIOTASMCPA2A

已于 2024-10-06 01:35:22 修改

阅读量9.1k

点赞数 9

分类专栏： ollama 文章标签： python 人工智能 ollama

于 2024-08-18 21:13:36 首次发布

原文链接：https://blog.csdn.net/weixin_36829761/article/details/140071550

版权

ollama 专栏收录该内容

6 篇文章

订阅专栏

一、ollama如何保持模型加载在内存中或立即卸载？

默认情况下，模型在生成响应后会在内存中保留 5 分钟。这允许在您多次请求 LLM 时获得更快的响应时间。然而，您可能希望在 5 分钟内释放内存，或者希望模型无限期地保留在内存中。使用 keep_alive 参数与 /api/generate 或 /api/chat API 端点，可以控制模型在内存中保留的时间。

keep_alive 参数可以设置为：

一个持续时间字符串（例如 “10m” 或 “24h”）
一个以秒为单位的数字（例如 3600）
任何负数，这将使模型无限期地保留在内存中（例如 -1 或 “-1m”）
‘0’ 这将使模型在生成响应后立即卸载

例如，要预加载模型并使其保留在内存中，请使用：

curl http://localhost:11434/api/generate -d '{"model": "qwen2", "keep_alive": -1}'

要卸载模型并释放内存，请使用：

curl http://localhost:11434/api/generate -d '{"model": "qwen2", "keep_alive": 0}'

或者，可以通过在启动 Ollama 服务器时设置环境变量 OLLAMA_KEEP_ALIVE 来更改所有模型在内存中保留的时间。OLLAMA_KEEP_ALIVE 变量使用与上述 keep_alive 参数相同的参数类型。

如果希望覆盖 OLLAMA_KEEP_ALIVE 设置，请使用 keep_alive API 参数与 /api/generate 或 /api/chat API 端点。

二、在启动时添加OLLAMA_KEEP_ALIVE环境参数

docker run -d --gpus=all -e OLLAMA_KEEP_ALIVE=-1 --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

查看是否设置成功

docker exec -it ollama env

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AIOTASMCPA2A

关注关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【大模型部署实战】Ollama如何保持模型常驻内存，或者显存，如何立刻释放

m0_47867638的博客

02-15

1398

参数，用户可以灵活地管理 Ollama 中模型的内存使用，既可以保持模型在内存中以提高响应速度，也可以根据需要及时卸载模型以释放资源。这种灵活性使得 Ollama 在处理大语言模型时更加高效和便捷[1][4][9][10]。Ollama 是一个用于管理和运行大语言模型的框架，默认情况下，模型在生成响应后会在内存中保留 5 分钟。然而，用户可能希望根据需求调整这一行为，以便更好地管理内存使用。用户可以通过 API 请求来设置该参数，以控制模型在内存中的保留时间。如果需要立即卸载模型以释放内存，可以通过设置。

『大模型笔记』怎样让Ollama启动的大模型常驻内存(显存)？

AI新视界

02-14

2055

怎样让Ollama启动的大模型常驻内存(显存)？

参与评论您还未登录，请先登录后发表或查看评论

本地部署VLLM预分配显存与Ollama OLLAMA_KEEP_ALIVE释放显存的对比以及思考，并行推理，张量并行

白鸿源的博客

03-20

770

ollama不支持GPU张量并行，于是打算把ollama替换到vllm平台进行推理。但研究了发现由于vllm是预分配显存，--gpu_memory_utilization参数设置比例，待机会占用不少显存，没跑推理时显卡待机功耗就比较高，实测T10显卡每张卡大概50几W功耗，而ollama的OLLAMA_KEEP_ALIVE默认是5分钟空闲会释放模型显存，还能自定义时间，到一定时间未调用推理，会主动释放，释放显存后显卡待机功耗每张10W,vllm强在多线程并行推理性能很强，可以说并行推理秒杀ollama

解决ollama无法长时间保存在内存中的问题

China_boy007的博客

03-04

4837

一、每次发出请求加载模型时，定义一个keep_alive变量，说明要存在多长时间。

ollama部署deepseek之后，保持模型永远被加载在GPU之中！

ssp584731180的博客

02-13

636

我们在使用ollma部署大语言模型的时候,如果部署的模型尺寸较大,往往在第一次加载的时候需要花费大量的时间加载模型;等加载完成后,如果长时间不调用模型,我们会发现模型已经被释放掉了,又要重新加载,导致体验感极差。

Ollama 如何让模型保持在内存或卸载

canduecho的专栏

07-23

8148

Ollama 默认情况下，模型会在内存中保存 5 分钟，然后才会卸载。如果您向 LLM 发出大量请求，这可以缩短响应时间。但是，您可能希望在 5 分钟过去之前释放内存，或者无限期地加载模型。端点来控制模型在内存中保留的时间。

ollama将模型永远加载在显存里

用于记录

12-17

3482

ollama将模型永远加载在显存里

笔记本电脑本地部署ollama大模型（显存不足调用CUDA Unified Memory方法）

最新发布

topfine的博客

04-11

1247

Ollama的优势在哪里? 如何启动Ollama 配置适合自己Ollama 加载本地模型的方法

LLM大模型部署实战指南：Ollama部署简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发【含ollama详细部署指南多版本】

丨汀、的博客

08-13

1万+

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

ollama教程——在Linux上运行大型语言模型的完整指南

walkskyer的博客

11-25

790

在这篇文章中，我们深入探讨了Ollama框架及其在本地运行大型语言模型中的应用。通过介绍Ollama的主要特点，如模型权重、配置和数据捆绑包、多平台支持，以及易用性和安装简便性，我们了解了它如何简化开发者的工作流程。我们还讨论了Ollama的模型量化技术，特别是4-bit量化如何显著降低显存需求，使得普通计算机也能运行复杂的大型语言模型。此外，通过支持多种硬件加速选项，Ollama能够充分利用不同类型的计算资源，提升模型的运行效率。

Ollama 可以设置的环境变量

engchina的专栏

05-12

2万+

Ollama 可以设置的环境变量

使用ollama配置本地模型（命令行使用）

zxsdyyds的博客

01-27

3645

配置个人AI模型

如何用Ollama直接加载官网没有的本地大模型

2301_76362892的博客

05-22

1万+

大家在用ollama加载大模型时，第一步都是要到国外网站去下载模型，即需要科学上网，又需要大带宽，且对于一些OLLAMA官网没有的大模型还不能直接使用，本文重点解决那种本地已经下载好的（含官网没有的）大模型如何直接被ollama加载使用问题。

ollama 使用技巧集锦

顺其自然~专栏

04-10

3215

从帮助文件可以看，我们通过设置环境变量（OLLAMA_MODELS）来指定模型目录，可以通过系统设置里来配置环境变量（系统变量或者用户变量）记得替换你的模型的完整路径另外不同模型的template 和 stop parameter不同，这个不知道就不写，或者网上搜索然后执行。使用*，意味着任何应用都可以访问ollama，如果你没有特别的要求，可以考虑用它。导入模型的时候，确保硬盘可用空间在模型大小的2倍以上，，搜Octopus-v2，找有GGUF标识的，为例，先查看模型信息，从模型文件信息里得知。

ollama 基本操作

weixin_40101756的博客

05-04

3万+

2.创建模型 ollama create -f *要点在于prompt，每个人可以拥有自己的AI助手，私密且亲密。语法：代表参数，实际输入为具体的名字，不需要输入1.运行模型 ollama run 4.删除模型 ollama rm 3.查看有哪些模型 ollama list。

提高Ollama内存

02-20

<think>嗯，用户问的是如何提高Ollama的内存，但我对Ollama不太了解呢。首先，我需要确定Ollama是什么。可能是一个机器学习框架或者某种工具？可能和LLAMA模型有关，因为LLAMA是Meta的大语言模型，而Ollama可能是一个本地运行大模型的工具，类似ollama.ai之类的项目吧。如果是这样的话，提高内存可能指的是增加模型运行时的可用内存，或者调整模型参数来优化内存使用。接下来，我需要确认用户的具体需求。他们可能在使用Ollama时遇到了内存不足的问题，想要优化内存使用，或者让模型使用更多内存来提高性能。比如，运行更大的模型需要更多内存，或者减少内存消耗让程序更流畅。可能的解决方案包括调整Ollama的配置参数，比如批处理大小（batch size），这会影响内存占用。较小的batch size会减少内存使用，但可能会影响速度。另外，模型量化（quantization）也是一个方法，通过降低参数精度来减少内存占用，比如从FP16到INT8。还可以考虑使用GPU加速，如果有的话，利用显存而不是内存。此外，检查系统本身的内存是否足够，关闭其他占用内存的程序，或者增加虚拟内存。另外，查看Ollama的文档或社区支持，是否有特定的内存优化建议。比如在启动ollama时指定某些参数，或者调整模型加载的方式。比如，使用--num-gpu-layers参数来将部分层加载到GPU，减少内存压力。还要考虑模型本身的选择，比如使用较小的模型版本，如7B而不是13B，这样内存需求更低。或者，优化代码，比如及时释放不再需要的资源，避免内存泄漏。需要验证这些方法是否适用于Ollama，可能需要参考官方文档或用户论坛。例如，Ollama可能支持在命令行中设置OLLAMA_MAX_MEMORY环境变量来限制内存使用，或者有配置选项调整内存分配。总结的话，提高Ollama内存效率的方法可能包括调整模型参数、使用量化、优化系统资源、利用GPU以及选择合适大小的模型。同时，确保系统和Ollama都是最新版本，以获取最佳性能和bug修复。要提高</think> **Ollama**（用于本地运行大型语言模型的工具）的内存使用效率或优化其性能，可以从以下几个方向入手： --- ### **1. 调整模型参数** - **减少上下文长度（Context Length）** 通过缩短输入文本的最大长度（如 `--ctx-size 2048`），可显著降低内存占用，但可能影响模型理解长文本的能力。 - **降低批处理大小（Batch Size）** 较小的批处理会减少单次内存需求，但可能影响推理速度。 --- ### **2. 使用量化模型** - **选择低精度模型版本** 例如，使用 `llama2:7b-q4_K_M`（4位量化）而非全精度模型（如 `llama2:13b`）。量化通过降低参数精度（如从32位浮点到4位整数）减少内存占用，但对模型效果影响较小。 - **自定义量化（需技术基础）** 使用工具如 `llama.cpp` 对模型进行量化，再导入Ollama运行。 --- ### **3. 优化硬件资源** - **启用GPU加速** 若支持GPU，通过 `--num-gpu-layers 40`（示例值）将部分计算转移到显卡，减少内存占用并提升速度。 - **增加系统内存/虚拟内存** 物理内存不足时，可扩展虚拟内存（如调整Windows分页文件或Linux交换分区）。 --- ### **4. 调整Ollama配置** - **环境变量控制内存** 设置 `OLLAMA_MAX_MEMORY=4096`（单位：MB）限制Ollama的内存使用，避免系统资源耗尽。 - **多模型管理** 避免同时运行多个大模型，及时卸载闲置模型（`ollama rm 模型名`）。 --- ### **5. 选择适合的模型** - 优先使用较小规模的模型（如7B而非13B/70B），尤其是硬件资源有限时。 --- ### **6. 系统级优化** - 关闭后台占用内存的程序。 - 更新Ollama和显卡驱动，确保兼容性和性能优化。 --- ### **示例命令** ```bash # 使用量化模型并限制内存 ollama run llama2:7b-q4_K_M --ctx-size 1024 --num-gpu-layers 20 # 设置全局内存限制（Linux/macOS） export OLLAMA_MAX_MEMORY=8192 ``` --- ### **注意事项** - 量化或缩小模型可能降低输出质量，需根据任务需求权衡。 - GPU支持需确认显卡型号和驱动（如NVIDIA需CUDA）。 - 监控内存使用（`htop`、任务管理器等），针对性调整参数。建议参考 [Ollama官方文档](https://github.com/ollama/ollama) 获取最新配置选项和最佳实践。