LLM也火了很久了,各种开源闭源的大模型也是层出不穷,头部玩家当属ChatGPT,但是也是各种收费以及被墙,甚至连API也被封禁了,于是国内玩家也不得不转战于各种各样的国内免费模型,比如Qwen2,但是免费的功能毕竟有限,很多功能也只能试用。所以在本地运行大模型就很有必要了。说起来简单,做起来却并没那么容易,这么多的开源大模型,如果给每一个大模型都构建一个运行环境,那太复杂了,对普通玩家也不友好,毕竟不是所有人都会编程。在这一块我之前有介绍过一个框架如何优雅的使用各类LLM,但是这个框架太重了,前后端也没有分离,导致使用起来并不是很方便,模型的兼容也并不是那么好。所谓有需求必然有大神,本地运行大模型也逐渐朝着前后端分离的方向在演进,今天给大家介绍一个开源的大型语言模型服务工具ollama
ollama
Ollama 是一个开源的大型语言模型服务工具,旨在帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以通过一条命令轻松启动和运行开源的大型语言模型。它提供了一个简洁易用的命令行界面和服务器,专为构建大型语言模型应用而设计。用户可以轻松下载、运行和管理各种开源 LLM。与传统 LLM 需要复杂配置和强大硬件不同,Ollama 能够让用户在消费级的 PC 上体验 LLM 的强大功能。Ollama 会自动监测本地计算资源,如有 GPU 的条件,会优先使用 GPU 的资源,同时模型的推理速度也更快。如果没有 GPU 条件,直接使用 CPU 资源。Ollama 极大地简化了在 Docker 容器中部署和管理大型语言模型的过程,使用户能够迅速在本地启动和运行这些模型。
• 开源免费:Ollama 支持的模型完全开源且免费,用户可以随时访问和使用这些资源,而无需支付任何费用。
• 简单易用:Ollama 无需复杂的配置和安装过程,只需几条简单的命令即可启动和运行,为用户节省了大量时间和精力。
• 支持多平台:Ollama 提供了多种安装方式,支持 Mac、Linux 和 Windows 平台,并提供 Docker 镜像,满足不同用户的需求。
• 模型丰富:Ollama 支持包括 Llama3.1、Gemma2、Qwen2 在内的众多热门开源 LLM,用户可以轻松一键下载和切换模型,享受丰富的选择。
• 功能齐全:Ollama 将模型权重、配置和数据捆绑成一个包,定义为 Modelfile,使得模型管理更加简便和高效。
• 支持工具调用:Ollama 支持使用 Llama 3.1 等模型进行工具调用。这使模型能够使用它所知道的工具来响应给定的提示,从而使模型能够执行更复杂的任务。
• 资源占用低:Ollama 优化了设置和配置细节,包括 GPU 使用情况,从而提高了模型运行的效率,确保在资源有限的环境下也能顺畅运行。
• 隐私保护:Ollama 所有数据处理都在本地机器上完成,可以保护用户的隐私。
• 社区活跃:Ollama 拥有一个庞大且活跃的社区,用户可以轻松获取帮助、分享经验,并积极参与到模型的开发和改进中,共同推动项目的发展。
ollama安装使用
进入这个网站 https://ollama.com/download直接下载客户端即可,但是这个客户端只是一个后端,当然也可以通过windows自带的teminal进行简单的调用模型,具体的操作可以参考 https://github.com/datawhalechina/handy-ollama/tree/main/docs
用web插件来调用ollama
前面说了ollama只是一个简单的后台大模型运行框架,并没有简易可用的Web & Desktop,还是那句话,有需求就会有大神,所以各种各样的Web & Desktop被陆续开发出来,优劣不一,大家可以自行尝试https://github.com/ollama/ollama ,其中用的比较多的是openwebui,大家可以试试,今天给大家介绍的是一款web插件Page Assist
Page Assist
只需要在Chrome Web Store搜索Page assist,然后添加插件即可,然后打开插件如下:
当然使用模型的前提,是需要开启ollama,插件会自动监测API,然后调用,下面我们来体验下:
注意到图片左下角的开关了吗,我们苦苦不可得的RAG,可以在这里使用了,之前我们也通过duckduckgo进行过曲线救国,但是限制太多,特别是需要科学上网,ChatGLM3在线搜索功能升级 这下通过插件可以通过联网搜索了,确实还是可以的,同时支持外部网页链接内容搜索
余下的ollama具体功能体验以及page assit体验就交给各位看官了,基本不需要什么编程知识,新手开箱即用。