大模型Ollama

workflower

已于 2024-09-18 07:50:12 修改

阅读量235

点赞数 4

文章标签： ai llama 语言模型人工智能

于 2024-09-18 07:36:27 首次发布

本文链接：https://blog.csdn.net/workflower/article/details/142322568

版权

Ollama 是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。Ollama 是一个基于 Go 语言开发的本地大模型运行框架!它可以帮助用户在本地快速运行大模型

以下是其主要特点和功能概述：

简化部署：Ollama 目标在于简化在 Docker 容器中部署大型语言模型的过程，使得非专业用户也能方便地管理和运行这些复杂的模型。
轻量级与可扩展：作为轻量级框架，Ollama 保持了较小的资源占用，同时具备良好的可扩展性，允许用户根据需要调整配置以适应不同规模的项目和硬件条件。
API支持：提供了一个简洁的 API，使得开发者能够轻松创建、运行和管理大型语言模型实例，降低了与模型交互的技术门槛。
预构建模型库：包含一系列预先训练好的大型语言模型，用户可以直接选用这些模型应用于自己的应用程序，无需从头训练或自行寻找模型源。

服务器配置要求

环境	最低配置	推荐配置
测试	2核 2GB	2核 4GB
100w 组向量	4核 8GB 50GB	4核 16GB 50GB
500w 组向量	8核 32GB 200GB	16核 48GB 200GB
1000w 组向量	16核 48GB 200GB	32核 64GB 500GB

安装 Docker

下载 Docker 并安装

安装 Ollama

下载 Ollama 并安装

下载 Chat 模型

4b 模型要 3GB内存
7b 模型要 8GB 内存
14b 模型要 16GB 内存
70b 模型要 64GB 内存

下载模型

ollama pull qwen:7b

测试API请求

等模型下载和安装好后，执行下面的命令，测试API请求是否成功

Windows下执行：

curl "http://localhost:11434/api/chat" ^
--data "{""model"": ""qwen:7b"", ""messages"": [{""role"": ""user"", ""content"": ""你是谁""}], ""temperature"": 0.1, ""stream"": false}"