环境
处理器(CPU)
- 核心数量:由于模型推理过程中涉及大量的矩阵运算和数据处理,多核 CPU 能够并行处理这些任务,从而显著提高推理速度。建议使用至少 4 核及以上的 CPU,如 Intel Core i7 或 AMD Ryzen 7 系列等。对于更大规模的模型或者需要同时处理多个请求的场景,8 核或更多核心的 CPU 会更有优势。
图形处理器(GPU)
- 显存大小:显存用于存储模型的参数和中间计算结果,显存越大,能够处理的模型规模就越大。对于较小的 DeepSeek 模型变体,至少需要 8GB 显存的 GPU,如 NVIDIA GeForce RTX 3060。而对于较大规模的模型,建议使用 16GB 或 24GB 显存的 GPU,如 NVIDIA GeForce RTX 3090 或 NVIDIA A100。
内存(RAM)
- 容量要求:除了 GPU 显存外,系统内存也需要足够大,以支持模型的加载和运行。在模型推理过程中,CPU 也会参与部分数据处理工作,需要一定的内存来存储数据。对于大多数 DeepSeek 模型,建议至少配备 16GB 的系统内存。如果同时运行多个模型或者进行大规模的推理任务,32GB 或更多的内存会更合适。
存储设备
- 容量:DeepSeek 模型本身可能会占用数 GB 甚至数十 GB 的存储空间,因此需要有足够的硬盘空间来下载和存储模型文件。建议至少有 50GB 以上的可用硬盘空间,以确保能够顺利下载和保存模型。
相关工具介绍
LM studio
LM Studio 是一款专为大语言模型(LLMs)设计的开源桌面应用程序,为用户提供了一个便捷、高效且功能丰富的本地大模型交互环境,以下为你详细介绍:
核心特点
- 多模型支持:LM Studio 支持多种流行的大语言模型,如DeepSeek、 Llama 2、Falcon、StableLM 等。这意味着用户可以根据自己的需求和偏好,在同一平台上轻松切换和使用不同的模型,而无需在多个工具之间进行繁琐的操作。
- 本地部署:它允许用户在本地计算机上运行大语言模型,无需依赖云服务。这不仅可以提高数据的安全性和隐私性,还能减少对网络连接的依赖,尤其适用于处理敏感信息或在网络环境不稳定的情况下使用。
- 简单易用的界面:LM Studio 拥有直观且简洁的用户界面,即使是没有技术背景的用户也能快速上手。用户可以通过图形化界面轻松完成模型的下载、配置和运行,同时还能实时查看模型的输出结果。
- 性能优化:该应用程序针对本地硬件进行了性能优化,能够充分利用计算机的 CPU 和 GPU 资源,以提高模型的运行速度和效率。此外,它还支持模型量化技术,可在不显著降低模型性能的前提下,减少内存占用。
- 社区支持:LM Studio 拥有活跃的社区,用户可以在社区中分享经验、交流问题、获取最新的模型资源和使用技巧。社区的支持为用户提供了一个良好的学习和交流平台,有助于不断提升用户的使用体验。
主要功能
- 模型下载和管理:用户可以直接在 LM Studio 中下载所需的大语言模型,并对已下载的模型进行管理,包括查看模型信息、更新模型版本等。
- 对话交互:提供类似于聊天机器人的交互界面,用户可以与模型进行实时对话,提出问题、获取答案,并进行深入的交流和探讨。
- 参数调整:允许用户根据具体需求调整模型的各种参数,如温度、最大长度、采样策略等,以控制模型的输出风格和质量。
- 历史记录和导出:会保存用户与模型的对话历史记录,方便用户回顾和查看。同时,用户还可以将对话记录导出为常见的文件格式,如 CSV、JSON 等,以便进一步分析和处理。
应用场景
- 个人学习和研究:对于对大语言模型感兴趣的个人用户来说,LM Studio 是一个学习和研究的理想工具。用户可以通过与不同的模型进行交互,深入了解大语言模型的工作原理和应用场景,提升自己的技术水平。
- 内容创作:作家、记者、文案策划人员等可以利用 LM Studio 提供的灵感和创意支持,辅助完成文章撰写、故事创作、文案策划等工作,提高创作效率和质量。
- 智能客服:企业可以在本地部署 LM Studio,并使用合适的模型为客户提供智能客服服务。这样既能保证客户数据的安全,又能根据企业的特定需求对模型进行定制和优化,提供更加个性化的服务。
Ollama
Ollama 是一个可以在本地轻松运行大语言模型的工具,让开发者和普通用户无需复杂配置就能体验大语言模型的能力。以下从多个方面为你详细介绍:
主要特点
- 本地部署:Ollama 允许用户在本地设备(如个人电脑)上下载和运行各种大语言模型,无需依赖云服务。这不仅能保障数据的隐私安全,避免敏感信息上传到云端,还能减少网络延迟,提供更流畅的使用体验。
- 模型丰富:它支持众多流行的大语言模型,像DeepSeek、 Llama 2、Mistral 等。用户可以根据自己的需求和场景,在不同的模型之间自由切换,以获取最佳的输出效果。
- 操作简便:提供了简洁直观的命令行界面和 API,降低了使用大语言模型的技术门槛。即使是没有深厚技术背景的用户,也能快速上手,通过简单的命令实现模型的下载、运行和交互。
- 快速下载与部署:Ollama 对模型进行了优化处理,能够实现快速下载和部署。用户可以在短时间内完成模型的准备工作,开始与模型进行交互。
主要功能
- 模型管理:用户可以方便地管理本地的大语言模型,包括下载新模型、查看已安装模型的信息、删除不再需要的模型等。
- 交互式对话:支持与模型进行交互式对话,用户输入问题或指令后,模型会快速给出响应。这种实时交互的方式使得用户能够及时获取所需信息,进行信息查询、文本生成等操作。
- 模型微调:在一定程度上允许用户对模型进行微调,以适应特定的任务或领域需求。通过微调,可以让模型在特定场景下表现得更加出色。
- API 支持:提供 API 接口,方便开发者将 Ollama 集成到自己的应用程序中。开发者可以利用这些 API 构建各种基于大语言模型的应用,如智能聊天机器人、智能写作助手等。
应用场景
- 个人知识查询:用户可以使用 Ollama 在本地设备上进行知识查询,就像使用在线搜索引擎一样,获取各种信息。
- 内容创作:作家、文案策划人员等可以借助 Ollama 的文本生成能力,获取创作灵感、生成初稿或进行内容润色。
- 软件开发:开发者可以利用 Ollama 的 API 将大语言模型集成到软件项目中,为应用程序增添智能交互功能,提升用户体验。
- 教育领域:教师和学生可以使用 Ollama 进行学习和教学,例如进行知识点的解释、论文写作指导等。
LM Studio和Ollama怎么选择
- LM Studio 相对更适合非技术用户,提供直观的图形界面和丰富的模型选择
- Ollama 更适合懂技术用户,提供强大的扩展性和命令行操作,使用起来比较灵活
Mac上部署deepseek
- 下载ollama
到官网
Ollama,点击Download,选择对应的平台,目前支持macOS,linux,Windows.


- 也可以使用 Homebrew 进行安装,在终端中运行以下命令:
brew install ollama
2. 启动 Ollama 服务
安装完成后,在终端中输入以下命令启动 Ollama 服务
ollama serve
服务启动后,你会看到相应的提示信息,此时就可以进行模型的下载和使用操作了。
注意启动成功后不要关闭终端。
3. 下载deepseek-r1 模型 使用 ollama pull 命令来下载所需的模型,例如下载 deepseek-r1 模型:
ollama pull deepseek-r1
在下载过程中,你可以看到下载进度信息。下载完成后,模型就会保存在本地,可供后续使用,如下图:

4. 启动模型,开始交互
通过命令行进行交互:使用 ollama run 命令来启动与模型的交互会话。例如,与刚刚下载的 deepseek-r1 模型进行对话:
ollama run deepseek-r1
在出现的交互界面中,输入你想要询问的问题,按下回车键,模型就会生成相应的回答,如下图:

5. 使用 API 交互(可选)
非集成开发一般不需要,
Ollama 提供了 HTTP API,你可以使用 Python 等编程语言通过 API 与模型进行交互。以下是一个使用 Python 发送请求的示例代码:
import requests url = "http://localhost:11434/api/generate" headers = {"Content-Type": "application/json"} data = { "model": "llama2", "prompt": "DeepSeek哪些方面比较有优势" } response = requests.post(url, headers=headers, json=data) print(response.json()["response"])
这段代码向 Ollama 的 API 发送一个请求,询问关于DeepSeek哪些方面有优势,并打印出模型的响应结果。
6. 管理本地模型(可选)
- 列出本地模型:使用 ollama list 命令可以查看本地已下载的所有模型:
ollama list

- 删除模型:如果某个模型不再需要,可以使用 ollama rm 命令将其从本地删除。例如,删除 Llama 2 模型:
ollama rm llama2
7. 调整模型参数(可选)
在使用 ollama run 命令时,你可以通过添加参数来调整模型的行为,例如:
ollama run deepseek-r1 --temperature 0.5 --top-k 60
- --temperature:控制输出的随机性,取值范围通常在 0 到 1 之间。值越大,输出越随机;值越小,输出越确定。
- --top-k:在生成文本时,只考虑概率最高的 k 个词,有助于减少生成结果的随机性。
通过以上步骤,你就可以使用 Ollama 在本地运行大语言模型,并与模型进行交互了。
8. 可能遇到的问题及解决方案
8.1 安装与配置问题
Homebrew 安装失败
- 问题描述:使用 Homebrew 安装 Ollama 时,出现报错信息,安装过程中断。
- 可能原因:Homebrew 未正确安装或更新、网络问题、系统权限问题。
- 解决方案:
- 确保 Homebrew 已正确安装且为最新版本,在终端运行 brew update 进行更新。
- 检查网络连接,可尝试切换网络环境或使用代理。
- 若涉及权限问题,运行命令时添加 sudo 以获取管理员权限,但要谨慎操作。
服务启动异常
- 问题描述:安装完成后,启动 Ollama 服务时提示错误,服务无法正常启动。
- 可能原因:端口被占用、配置文件错误、依赖库缺失。
- 解决方案:
- 使用 lsof -i :11434(默认端口为 11434)查看占用该端口的进程,然后使用 kill -9 结束相应进程。
- 检查 Ollama 的配置文件,确保配置正确,若不确定可尝试恢复默认配置。
- 确保系统安装了 Ollama 所需的依赖库,如必要的系统组件和库文件。
8.2 模型下载与管理问题
下载速度慢或中断
- 问题描述:使用 ollama pull 命令下载模型时,下载速度极慢,甚至出现下载中断的情况。
- 可能原因:网络问题、服务器负载过高。
- 解决方案:
- 检查网络连接,尝试切换网络环境,如从 Wi-Fi 切换到有线网络。
- 若使用代理,检查代理设置是否正确,或暂时关闭代理。
- 选择网络使用低谷期进行下载,避免服务器负载高峰期。
模型下载失败
- 问题描述:下载模型时出现错误提示,无法完成下载。
- 可能原因:网络不稳定、模型源不可用、磁盘空间不足。
- 解决方案:
- 重新执行 ollama pull 命令,若多次失败,检查网络连接和模型源地址。
- 访问模型源的官方网站,确认模型是否可用或是否有更新。
- 清理磁盘空间,确保有足够空间存储模型。
8.3 模型运行与交互问题
模型无法启动
- 问题描述:使用 ollama run 命令启动模型时,出现报错,模型无法正常启动。
- 可能原因:内存不足、模型与系统不兼容、依赖库版本不匹配。
- 解决方案:
- 关闭其他不必要的程序,释放系统内存。若内存严重不足,考虑升级内存。
- 检查模型的官方文档,确认模型是否支持当前 Mac 系统版本。
- 更新相关依赖库到兼容版本。
API 调用失败
- 问题描述:使用代码通过 API 与 Ollama 交互时,出现请求失败或返回错误信息。
- 可能原因:API 地址配置错误、网络问题、API 权限问题。
- 解决方案:
- 检查代码中的 API 地址是否正确,确保与 Ollama 服务的地址和端口一致。
- 检查网络连接,确保能够正常访问 Ollama 服务。
- 确认是否需要特定的 API 权限,如有需要,进行相应的配置。
8.4 安全与权限问题
防火墙阻止
- 问题描述:Ollama 服务无法正常与外部通信,可能是由于 Mac 系统防火墙阻止了相关端口。
- 解决方案:在系统偏好设置中打开 “防火墙”,点击 “允许的应用”,添加 Ollama 服务允许通过防火墙。
文件权限问题
- 问题描述:在下载或运行模型时,出现权限不足的错误提示。
- 解决方案:使用 chmod 命令修改文件或目录的权限,确保 Ollama 有足够的权限进行操作。例如,chmod -R 755 /path/to/ollama/models 。