Ollama 配置多并发和多模型

最新推荐文章于 2025-04-16 15:49:33 发布

zeloas

最新推荐文章于 2025-04-16 15:49:33 发布

阅读量1.9w

点赞数 10

分类专栏：大模型文章标签：服务器 linux

本文链接：https://blog.csdn.net/yao_zhuang/article/details/139552869

版权

大模型专栏收录该内容

8 篇文章

订阅专栏

ollama新版已经支持了并发和多模型同时运行了，系统资源够的可以走起了
默认的ollama服务是不支持的，需要自己进行调整，调整的方式如下：

Linux为例

通过调用编辑 systemd 服务systemctleditollama.service 这将打开一个编辑器。

vim /etc/systemd/system/ollama.service

在[Service]部分下对于每个环境变量添加一行Environment，如下所示

[Service]
Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量

保存并退出。

3 . 重新加载systemd并重新启动 Olama：

sudo systemctl daemon-reload
sudo systemctl restart ollama

在restart ollama前一定要调用daemon reload，不然不会起作用。

测试结果：

ollama 多模型同时运行

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zeloas

关注关注

10
点赞
踩
34

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

ollama 模型显存常驻OLLAMA_KEEP_ALIVE；支持并发访问OLLAMA_NUM_PARALLEL；支持同时推理多个模型

weixin_42357472的博客

07-01

4761

参考：https://blog.csdn.net/weixin_42357472/article/details/137666022。

LLM大模型部署实战指南：Ollama部署简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发【含ollama详细部署指南多版本】

丨汀、的博客

08-13

1万+

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

2 条评论您还未登录，请先登录后发表或查看评论

辣妈之野望 2 –Ollama配置技巧

ms44的专栏

02-08

1415

在0.1.13 之后的版本Ollama这可以让我们不需要排队。当然如果在同一台机器上运行，虽然不排队，但是并行计算所要求的GPU处理能力和显存要求还是一个总和。分布式就没这个问题。当然个人用户可以简单用用，也是不错。更多技术资讯下载:相关配图由微信小程序【字形绘梦】免费生成。

Ollama高并发测试

热门推荐

arkohut的博客

05-20

2万+

ollama 支持了并发之后其吞吐量有了不小的提升，不过这能打得过 vllm 吗？这里详细记录测试的环境搭建和脚本准备。

Ollama vs vLLM：并发性能深度评测

Cyanty的博客

02-17

3131

1.1 OllamaOllama 是一个简单易用的 LLM 部署工具，以其简洁的安装和用户友好的界面而闻名。它支持多种模型架构，并提供了丰富的命令行工具和图形化界面，适合快速原型设计和小规模部署。1.2 vLLMvLLM（Very Large Language Model）是一个高性能的推理引擎，专注于大规模语言模型的高效推理。它通过动态批处理、显存优化和多 GPU 支持，显著提升了推理速度和资源利用率。

基于Windows部署Ollama本地运行大模型

weixin_44390344的博客

06-24

1356

在Windows平台，部署Ollama，本地运行大模型，并可通过OpenWebUI网页进行对话

小模型时代来临~ 如何用ollama跑多个小模型提升并发性能, 用ollama吧

杂货铺

02-13

1182

要想发挥OLLAMA的真正实力🎯, 还是要与JBoltAI搭配食用才能发挥其最大价值🤑😂, JBoltAI欢迎亲的随时关注哟🤩😚~

ollama加载多个相同模型（一）

qq_45079973的博客

10-23

4436

ollama加载多个相同模型

Ollama支持同时加载多个模型、单个模型同时处理多个请求

顺其自然~专栏

08-29

1万+

我们使用ollama 有一段时间了，Ollama是一个开源框架，主要用于在本地机器上运行和管理大型语言模型（LLM）。它有以下特点：1）易用性：Ollama设计简洁，使得即使是非专业用户也能轻松部署和管理大型语言模型。它通过提供命令行界面和集成Docker容器来简化部署过程。2）支持多种操作系统：Ollama支持MacOS、Linux以及Windows平台，这使得广泛的用户群体都能够使用这一工具。

使用Ollama快速部署多种AI大模型

super_mochi1

07-19

932

Ollama部署AI大模型

【ollama】一键部署2000多种AI大模型！不挑环境、不吃配置，神了！

pythonhy的博客

02-07

959

在数字化的浪潮中，Ollama如同一位技术界的“魔法师”，挥舞着它的魔杖——一行简单的命令，就能唤醒沉睡的代码巨人，一键本地部署2000+ 大模型！今天，让我们揭开Ollama的神秘面纱，一探究竟。

ollama配置并发

03-18

用户可能需要安装vLLM后端，并在Ollama配置中指定使用vLLM，然后调整vLLM的参数，如`--tensor-parallel-size`来分配更多的GPU资源，提升并发能力。另一种方法是利用Docker的横向扩展。根据引用[2]，每个Docker容器...

LInux+ollama的并发数,prompt和显存占用

bagepython的博客

03-11

1209

测试结果:1.对于请求不超过并发数的请求,响应速度在0.2s以内,超出的请求响应时间较长.2.如果是初次请求,模型的启动时间较长.3.模型的prompt处理长度默认2k,在num_ctx值增大时,超过一个显卡显存数,num_ctx再增大,显存占用明显变大.

DeepSeek R1+Ollama 企业级应用多用户同时对话并发测试

02-17

953

测试方法：在五台客户端主机安装三个Cherry-Studio和两个Chatbox客户端同时向服务器发起对话查询请求。测试结论：多用户并发查询，Ollama服务器CPU及内存使用率增长量可以忽略不计。测试结果：CPU使用率维持在40%-50%之间，内存使用量增长了20MB。测试版本: DeepSeek R1 7b+Ollama 0.5.11。更多测试内容请关注公众号：AI应用帮小忙。客户端接收服务器响应速度会明显变慢。测试日期：2025.2.17。多用户同时对话并发测试。

ollama多显卡下多服务部署

qq_37117980的博客

01-13

8115

记录下ollama在多显卡下的多服务部署 ollama启动服务时，默认是11434端口，不支持传port参数，例如该启动方法，CUDA_VISIBLE_DEVICES=0 nohup python main.py --listen 0.0.0.0 --port 7860 > log.log 2>&1 &，为了充分利用显卡资源，同一个ollama服务下，同时在两张显卡上各启一个服务来标注。方法如下 CUDA_VISIBLE_DEVICES=0 nohup ollama se

Ollama vs. vLLM：谁是AI模型推理的王者？

igo9go_zq的博客

03-21

553

**Ollama**：提供简单的命令行界面和集成的模型管理功能（如下载和切换模型），对初学者和技术要求较低的用户非常友好。例如，个人实验、原型开发或离线环境。- **vLLM**：专为生产环境设计，适合需要服务大量用户的高吞吐量应用，如企业级聊天机器人、实时AI服务或云端推理部署。- **vLLM**：虽然功能强大，但配置和部署相对复杂，需要一定的技术背景（如熟悉GPU环境和Python编程）。- **Ollama**：可在CPU上运行，也支持GPU加速，但对硬件要求较低，适合普通个人电脑或笔记本。

自然语言处理:第五十三章 Ollama

victor_manches的博客

10-14

2476

代码： ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models. (github.com)官网： Ollama写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!运行以下命令安装 Ollama： AMD Radeon GPU 支持虽

多模态大模型初探索：通过ollama部署多模态大模型

xiezhipu的博客

01-08

2180

今天和同事聊天，聊到多模态大模型，感觉可以作为2025年的一个新的探索方向。希望和大家一起学习，一起进步。今天也是尝试了我能想到的最基本最快速地本地部署多模态大模型的方式，那便是使用ollama。ollama之前咱安装过，然后现在也是直接使用就好。