本地电脑部署大模型详细步骤及常见问题

敲代码的AI玩家

已于 2025-03-05 22:42:58 修改

阅读量1.3k

点赞数 34

分类专栏： AI智能体开发全栈实战文章标签： microsoft 人工智能深度学习 AIGC langchain prompt

于 2025-03-04 08:55:13 首次发布

本文链接：https://blog.csdn.net/zjl6666666666/article/details/146005000

版权

AI智能体开发全栈实战专栏收录该内容

7 篇文章

订阅专栏

环境

处理器（CPU）

核心数量：由于模型推理过程中涉及大量的矩阵运算和数据处理，多核 CPU 能够并行处理这些任务，从而显著提高推理速度。建议使用至少 4 核及以上的 CPU，如 Intel Core i7 或 AMD Ryzen 7 系列等。对于更大规模的模型或者需要同时处理多个请求的场景，8 核或更多核心的 CPU 会更有优势。

图形处理器（GPU）

显存大小：显存用于存储模型的参数和中间计算结果，显存越大，能够处理的模型规模就越大。对于较小的 DeepSeek 模型变体，至少需要 8GB 显存的 GPU，如 NVIDIA GeForce RTX 3060。而对于较大规模的模型，建议使用 16GB 或 24GB 显存的 GPU，如 NVIDIA GeForce RTX 3090 或 NVIDIA A100。

内存（RAM）

容量要求：除了 GPU 显存外，系统内存也需要足够大，以支持模型的加载和运行。在模型推理过程中，CPU 也会参与部分数据处理工作，需要一定的内存来存储数据。对于大多数 DeepSeek 模型，建议至少配备 16GB 的系统内存。如果同时运行多个模型或者进行大规模的推理任务，32GB 或更多的内存会更合适。

存储设备

容量：DeepSeek 模型本身可能会占用数 GB 甚至数十 GB 的存储空间，因此需要有足够的硬盘空间来下载和存储模型文件。建议至少有 50GB 以上的可用硬盘空间，以确保能够顺利下载和保存模型。

相关工具介绍

LM studio

LM Studio 是一款专为大语言模型（LLMs）设计的开源桌面应用程序，为用户提供了一个便捷、高效且功能丰富的本地大模型交互环境，以下为你详细介绍：

核心特点

多模型支持：LM Studio 支持多种流行的大语言模型，如DeepSeek、 Llama 2、Falcon、StableLM 等。这意味着用户可以根据自己的需求和偏好，在同一平台上轻松切换和使用不同的模型，而无需在多个工具之间进行繁琐的操作。
本地部署：它允许用户在本地计算机上运行大语言模型，无需依赖云服务。这不仅可以提高数据的安全性和隐私性，还能减少对网络连接的依赖，尤其适用于处理敏感信息或在网络环境不稳定的情况下使用。
简单易用的界面：LM Studio 拥有直观且简洁的用户界面，即使是没有技术背景的用户也能快速上手。用户可以通过图形化界面轻松完成模型的下载、配置和运行，同时还能实时查看模型的输出结果。
性能优化：该应用程序针对本地硬件进行了性能优化，能够充分利用计算机的 CPU 和 GPU 资源，以提高模型的运行速度和效率。此外，它还支持模型量化技术，可在不显著降低模型性能的前提下，减少内存占用。
社区支持：LM Studio 拥有活跃的社区，用户可以在社区中分享经验、交流问题、获取最新的模型资源和使用技巧。社区的支持为用户提供了一个良好的学习和交流平台，有助于不断提升用户的使用体验。

主要功能

模型下载和管理：用户可以直接在 LM Studio 中下载所需的大语言模型，并对已下载的模型进行管理，包括查看模型信息、更新模型版本等。
对话交互：提供类似于聊天机器人的交互界面，用户可以与模型进行实时对话，提出问题、获取答案，并进行深入的交流和探讨。
参数调整：允许用户根据具体需求调整模型的各种参数，如温度、最大长度、采样策略等，以控制模型的输出风格和质量。
历史记录和导出：会保存用户与模型的对话历史记录，方便用户回顾和查看。同时，用户还可以将对话记录导出为常见的文件格式，如 CSV、JSON 等，以便进一步分析和处理。

应用场景

个人学习和研究：对于对大语言模型感兴趣的个人用户来说，LM Studio 是一个学习和研究的理想工具。用户可以通过与不同的模型进行交互，深入了解大语言模型的工作原理和应用场景，提升自己的技术水平。
内容创作：作家、记者、文案策划人员等可以利用 LM Studio 提供的灵感和创意支持，辅助完成文章撰写、故事创作、文案策划等工作，提高创作效率和质量。
智能客服：企业可以在本地部署 LM Studio，并使用合适的模型为客户提供智能客服服务。这样既能保证客户数据的安全，又能根据企业的特定需求对模型进行定制和优化，提供更加个性化的服务。

Ollama

Ollama 是一个可以在本地轻松运行大语言模型的工具，让开发者和普通用户无需复杂配置就能体验大语言模型的能力。以下从多个方面为你详细介绍：

主要特点

本地部署：Ollama 允许用户在本地设备（如个人电脑）上下载和运行各种大语言模型，无需依赖云服务。这不仅能保障数据的隐私安全，避免敏感信息上传到云端，还能减少网络延迟，提供更流畅的使用体验。
模型丰富：它支持众多流行的大语言模型，像DeepSeek、 Llama 2、Mistral 等。用户可以根据自己的需求和场景，在不同的模型之间自由切换，以获取最佳的输出效果。
操作简便：提供了简洁直观的命令行界面和 API，降低了使用大语言模型的技术门槛。即使是没有深厚技术背景的用户，也能快速上手，通过简单的命令实现模型的下载、运行和交互。
快速下载与部署：Ollama 对模型进行了优化处理，能够实现快速下载和部署。用户可以在短时间内完成模型的准备工作，开始与模型进行交互。

主要功能

模型管理：用户可以方便地管理本地的大语言模型，包括下载新模型、查看已安装模型的信息、删除不再需要的模型等。
交互式对话：支持与模型进行交互式对话，用户输入问题或指令后，模型会快速给出响应。这种实时交互的方式使得用户能够及时获取所需信息，进行信息查询、文本生成等操作。
模型微调：在一定程度上允许用户对模型进行微调，以适应特定的任务或领域需求。通过微调，可以让模型在特定场景下表现得更加出色。
API 支持：提供 API 接口，方便开发者将 Ollama 集成到自己的应用程序中。开发者可以利用这些 API 构建各种基于大语言模型的应用，如智能聊天机器人、智能写作助手等。

应用场景

个人知识查询：用户可以使用 Ollama 在本地设备上进行知识查询，就像使用在线搜索引擎一样，获取各种信息。
内容创作：作家、文案策划人员等可以借助 Ollama 的文本生成能力，获取创作灵感、生成初稿或进行内容润色。
软件开发：开发者可以利用 Ollama 的 API 将大语言模型集成到软件项目中，为应用程序增添智能交互功能，提升用户体验。
教育领域：教师和学生可以使用 Ollama 进行学习和教学，例如进行知识点的解释、论文写作指导等。

LM Studio和Ollama怎么选择

LM Studio 相对更适合非技术用户，提供直观的图形界面和丰富的模型选择
Ollama 更适合懂技术用户，提供强大的扩展性和命令行操作，使用起来比较灵活

Mac上部署deepseek

下载ollama

到官网 Ollama，点击Download，选择对应的平台，目前支持macOS,linux,Windows.

也可以使用 Homebrew 进行安装，在终端中运行以下命令：

brew install ollama

2. 启动 Ollama 服务

安装完成后，在终端中输入以下命令启动 Ollama 服务

ollama serve

服务启动后，你会看到相应的提示信息，此时就可以进行模型的下载和使用操作了。

注意启动成功后不要关闭终端。

3. 下载deepseek-r1 模型 使用 ollama pull 命令来下载所需的模型，例如下载 deepseek-r1 模型：

ollama pull deepseek-r1

在下载过程中，你可以看到下载进度信息。下载完成后，模型就会保存在本地，可供后续使用，如下图：

4. 启动模型，开始交互

通过命令行进行交互：使用 ollama run 命令来启动与模型的交互会话。例如，与刚刚下载的 deepseek-r1 模型进行对话：

ollama run deepseek-r1

在出现的交互界面中，输入你想要询问的问题，按下回车键，模型就会生成相应的回答，如下图：

5. 使用 API 交互（可选）

非集成开发一般不需要，

Ollama 提供了 HTTP API，你可以使用 Python 等编程语言通过 API 与模型进行交互。以下是一个使用 Python 发送请求的示例代码：

import requests url = "http://localhost:11434/api/generate" headers = {"Content-Type": "application/json"} data = { "model": "llama2", "prompt": "DeepSeek哪些方面比较有优势" } response = requests.post(url, headers=headers, json=data) print(response.json()["response"])

这段代码向 Ollama 的 API 发送一个请求，询问关于DeepSeek哪些方面有优势，并打印出模型的响应结果。

6. 管理本地模型（可选）

列出本地模型：使用 ollama list 命令可以查看本地已下载的所有模型：

ollama list

删除模型：如果某个模型不再需要，可以使用 ollama rm 命令将其从本地删除。例如，删除 Llama 2 模型：

ollama rm llama2

7. 调整模型参数（可选）

在使用 ollama run 命令时，你可以通过添加参数来调整模型的行为，例如：

ollama run deepseek-r1 --temperature 0.5 --top-k 60

--temperature：控制输出的随机性，取值范围通常在 0 到 1 之间。值越大，输出越随机；值越小，输出越确定。
--top-k：在生成文本时，只考虑概率最高的 k 个词，有助于减少生成结果的随机性。

通过以上步骤，你就可以使用 Ollama 在本地运行大语言模型，并与模型进行交互了。

8. 可能遇到的问题及解决方案

8.1 安装与配置问题

Homebrew 安装失败

问题描述：使用 Homebrew 安装 Ollama 时，出现报错信息，安装过程中断。
可能原因：Homebrew 未正确安装或更新、网络问题、系统权限问题。
解决方案：
- 确保 Homebrew 已正确安装且为最新版本，在终端运行 brew update 进行更新。
- 检查网络连接，可尝试切换网络环境或使用代理。
- 若涉及权限问题，运行命令时添加 sudo 以获取管理员权限，但要谨慎操作。

服务启动异常

问题描述：安装完成后，启动 Ollama 服务时提示错误，服务无法正常启动。
可能原因：端口被占用、配置文件错误、依赖库缺失。
解决方案：
- 使用 lsof -i :11434（默认端口为 11434）查看占用该端口的进程，然后使用 kill -9 结束相应进程。
- 检查 Ollama 的配置文件，确保配置正确，若不确定可尝试恢复默认配置。
- 确保系统安装了 Ollama 所需的依赖库，如必要的系统组件和库文件。

8.2 模型下载与管理问题

下载速度慢或中断

问题描述：使用 ollama pull 命令下载模型时，下载速度极慢，甚至出现下载中断的情况。
可能原因：网络问题、服务器负载过高。
解决方案：
- 检查网络连接，尝试切换网络环境，如从 Wi-Fi 切换到有线网络。
- 若使用代理，检查代理设置是否正确，或暂时关闭代理。
- 选择网络使用低谷期进行下载，避免服务器负载高峰期。

模型下载失败

问题描述：下载模型时出现错误提示，无法完成下载。
可能原因：网络不稳定、模型源不可用、磁盘空间不足。
解决方案：
- 重新执行 ollama pull 命令，若多次失败，检查网络连接和模型源地址。
- 访问模型源的官方网站，确认模型是否可用或是否有更新。
- 清理磁盘空间，确保有足够空间存储模型。

8.3 模型运行与交互问题

模型无法启动

问题描述：使用 ollama run 命令启动模型时，出现报错，模型无法正常启动。
可能原因：内存不足、模型与系统不兼容、依赖库版本不匹配。
解决方案：
- 关闭其他不必要的程序，释放系统内存。若内存严重不足，考虑升级内存。
- 检查模型的官方文档，确认模型是否支持当前 Mac 系统版本。
- 更新相关依赖库到兼容版本。

API 调用失败

问题描述：使用代码通过 API 与 Ollama 交互时，出现请求失败或返回错误信息。
可能原因：API 地址配置错误、网络问题、API 权限问题。
解决方案：
- 检查代码中的 API 地址是否正确，确保与 Ollama 服务的地址和端口一致。
- 检查网络连接，确保能够正常访问 Ollama 服务。
- 确认是否需要特定的 API 权限，如有需要，进行相应的配置。

8.4 安全与权限问题

防火墙阻止