deep seek R1本地化部署及openAI API调用

先说几句题外话。

最近deep seek火遍全球,所以春节假期期间趁着官网优惠充值了deep seek的API,用openAI的接口方式尝试了下对deep seek的调用,并且做了个简单测试,测试内容确实非常简单:通过prompt提示词让大模型对用户提问做一个简单的提问场景判断,分了3个大类:一个是能耗问题,比如用户提问包括电流、电压、功率、能耗、耗能情况等等,判断为能耗问题。一个是生产问题,比如产量、产品等等,生产问题需要识别用户提问的日期范围之后转化为格式化输出,以便调用生产系统API获取数据。除此之外就是通用问题。

重点测试了生产相关的产量问题的日期范围测试,分别调用过讯飞的generalv3,智普的glm-4-plus,openAI的gpt-4o,提问比如上周的产量怎么样,不论我怎么调整提示词,generalv3都识别不出“上周”的时间范围,相同提示词的情况下,gpt-4o表现最好,识别的准确率最高,智普的glm-4-plus也还可以。

春节前用deepseek-reasoner试了下,对这个简单问题的表现很不错,因为我的openAI的apikey已经到期了所以没有办法对比测试了,但是单独测试deepseek-reasoner,每次都可以准确识别上周、上个月等时间范围。

其实这个测试是为了对function calling做一个简单的准备,验证一下将来如果有相关场景的话,是否可以通过funcation calling使大模型和业务系统做一个对接。前期测试结果并不能反映出模型是否支持我的业务场景,因为效果不好的直接原因可能就是我的提示词使用不当,不断优化提示词后应该能解决,因为问题确实非常简单。

好的,进入正题。

我的笔记本电脑配置很低,没有gpu,所以没有办法选择参数量比较大的模型做本地化部署,先选一个最小的,主要目的是验证一下本地化部署的步骤。

部署内容:

  1. Ollama:Ollama是开源大模型部署或管理工具,提供了对大部分知名模型的支持,对外提供了openAI的api接口、以及聊天窗口
  2. DeepSeek R1 1.5b:选了一个最小的模型,模型文件的大小是1.1GB,关键是推理过程中对GPU没有要求,我16g内存、无显卡的笔记本电脑,可以无障碍运行。
  3. 本地知识库搭建:搭建本地rag环境,安装embedding模型实现本地知识库的搭建(这一步还在摸索中,尚未找到合适的embedding模型,所以本次内
### DeepSeek本地部署使用GPU配置教程 #### 环境准备 为了确保DeepSeek能够充分利用GPU资源,需满足特定的硬件和软件条件。 对于硬件而言,最低要求为支持AVX2指令集的CPU加上16GB内存以及30GB存储空间;然而,更推荐的是配备NVIDIA GPU(例如RTX 3090及以上型号)、至少32GB RAM及50GB可用硬盘空间来获得更好的性能表现[^1]。特别是当计划利用GPU加速时,拥有高性能图形处理器显得尤为重要。 关于软件方面,操作系统可以选择Windows、macOS或者是Linux发行版之一。值得注意的是,在某些情况下可能还需要预先安装好Docker服务以便后续操作顺利进行。 #### 安装Ollama并选择合适版本 前往ollama官方网站,并通过搜索功能定位到名为`deepseek-r1`的大规模预训练语言模型项目页面。依据个人计算机的具体情况挑选最适宜的下载选项——比如针对具备大约8GB显存设备可考虑采用8B参数量级的小型化变体;而对于那些配备了超过12GB VRAM装置则更适合选用较大尺寸如14B甚至更大规格(像32B),这通常意味着需要更强力的GPU支持,例如RTX 3090或4090系列[^2]。 #### 启用GPU加速设置 一旦完成了上述准备工作之后,接下来就是至关重要的一步:激活对GPU的支持以实现高效的推理过程。具体做法如下: 假设已经按照官方文档指示成功设置了基本环境,则可以通过修改启动脚本中的相应部分来开启CUDA/GPU模式。下面给出了一段Python代码片段用于展示怎样调整程序入口文件(`main.py`)内的关键配置项从而允许访问GPU计算能力: ```python import torch if __name__ == "__main__": device = "cuda" if torch.cuda.is_available() else "cpu" model.to(device) # 继续执行其他初始化逻辑... ``` 这段简单的代码会自动检测当前系统是否存在可用的NVIDIA CUDA兼容GPU,并据此决定是否迁移整个神经网络结构至该类硬件上运行。这样做的好处是可以显著提升处理速度尤其是面对复杂任务场景下的响应效率。 另外需要注意一点,如果打算让多个实例共享同一块或多块物理GPU的话,那么还应当进一步优化资源配置策略,包括但不限于设定合理的batch size大小、控制每轮迭代期间所占用的最大显存量等等措施,以此达到最佳的整体吞吐率水平。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值