ollama将模型永远加载在显存里

问题解析

我们在使用ollma部署大语言模型的时候,如果部署的模型尺寸较大,往往在第一次加载的时候需要花费大量的时间加载模型;等加载完成后,如果长时间不调用模型,我们会发现模型已经被释放掉了,又要重新加载,导致体验感极差.

这是为什么呢?因为在没被调用时,ollama默认在显存中驻留5min,然后就会自动释放,如果我们两次调用的间隔大于5min的话,那模型已经被释放了,又要重新加载;

不过ollama预留了keep_alive参数可以控制模型驻留的时间:
该参数可以设置为:

  • 持续时间字符串(如10M’, ‘24H’);
  • 以秒为单位的数字(如 3600);
  • -1表示永远驻留在显存中;
  • 0表示接受一次响应后立即清除模型;

使用方法

方法如下:
如预加载模型,并永远驻留在显存

curl http://localhost:11434/api/generate -d '{"model":"llama2","keep_alive”: -1}

具体keep_alive可以根据实际情况自由设置;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sssugarr

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值