解决Ollama模型无法跑在GPU上问题

cuda装好后可查看版本信息

二、设置Ollama环境变量

这里略去Ollama安装过程。

Ollama安装好后,为了让推理跑在GPU上,可以按照如下步骤 设置环境变量:

  • 在“系统变量”中,点击“新建”按钮。
  • 添加以下环境变量:
  • 变量名:OLLAMA_GPU_LAYER
  • 变量值:cuda
  • 如果需要指定特定的 GPU,可以添加以下环境变量:
  • 变量名:CUDA_VISIBLE_DEVICES
  • 变量值:GPU的UUID(按编号有时找不到,所以使用UUID)

在控制台输入nvidia-smi -L,即可查看GPU的UUID 

获取GPU的UUID

设置好后的效果如图: 

设置环境变量,让Ollama调用指定GPU

三、验证是否跑在GPU上

在推理时使用Ollama ps 即可查看负载情况:

ollama ps

我的显存是12G。

使用8b模型推理时,GPU显存够用,所以是100% GPU。

使用14b模型推理时,为避免显存爆掉,系统会自动将一部分分给CPU运行。这里是6%CPU,94%GPU

查看负载

具体的分配可以看Log 

ollamaLog路径

将Log内容贴在AI中进行分析 

可能会遇到的问题

如果是先装了Ollama,再装cuda,可能会出现这种情况:

按照上面设置后,控制台使用Ollama ps 显示GPU是主要负载,但是任务管理器中看到的却是GPU没怎么跑,CPU占用很高。

解决办法是:重装一下Ollama。 或者在任务栏的Ollama图标上 右键点击Update即可自动重装并更新至新版本。

任务管理器查看GPU负载

本文摘自:设置Ollama模型跑在GPU上 - 哔哩哔哩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值