本地部署DeepSeek+Dify构建AI 智能体

一些概念

什么是满血版/蒸馏版

在机器学习和深度学习中,模型蒸馏是一种将大型模型(满血版)压缩为小型模型(蒸馏版)的技术。

原理:

  • 使用大型模型(教师模型)的输出作为监督信号,训练一个小型模型(学生模型)。
  • 学生模型通过学习教师模型的“知识”,达到接近教师模型的性能。

满血版 是 DeepSeek 的完整形态,性能强大但资源需求高,蒸馏版 是轻量级版本,适合资源有限的场景,但性能有所下降。

img

性能对比:

维度满血版蒸馏版
模型参数6710 亿参数1.5B、7B、8B、14B、32B、70B 等多种规模
推理能力支持复杂推理、长链推理(CoT)推理能力较弱,适合简单场景
语言能力生成内容质量高,逻辑性强生成内容质量较低,可能出现逻辑错误
数学能力高精度数学运算保留部分数学能力,但精度下降
代码能力支持复杂代码生成仅支持简单代码生成,可能存在 bug

硬件资源:

维度满血版蒸馏版
硬件需求需多个GPU 服务器(单卡显存 >120GB)例4090*2+382GB内存7B 版本可在 16GB 显存的显卡运行,例4050+16G内存
部署成本高昂(单机成本 >20 万元)较低(最低配置成本约 1 万元)
适用设备高性能服务器普通消费级显卡、移动端设备

为什么本地部署

  • 免费: 本地的模型部署随便玩,不用担心任何付费,你只需要投入一个好设备就行。
  • 数据隐私: 当我们使用云端的大模型时,所有的数据都需要上传到服务器进行处理。这就意味着我们的数据可能会被其他人访问或泄露。如果你要做一些对敏感数据的分析任务,比如公司内网的数据和代码,都需要担心数据泄露的问题,很多公司也有明确的限制不能将敏感数据泄露给外部模型。而本地部署大模型则可以完全避免这个问题,因为所有的数据都存储在本地,不会上传到云端。
  • 无额外限制: 网络上的大模型通常为了符合法律法规以及自身的运营策略,往往会设置严格的内容审查机制。所以在某些敏感话题上,模型的回答会受到限制,即模型给出的回答是基于预设的价值观和规则,而非纯粹基于数据和算法逻辑。
  • 无需网络依赖: 本地部署的模型无需网络依赖,你可以在没有网络连接的情况下随时使用,不受网络环境的限制。
  • 灵活定制: 网上也有很多提供知识库能力的服务,但是因为有数据泄漏的问题,我们可能不敢上传敏感数据,而且一般此类服务都是收费的。本地部署大模型后,我们可以利用自己的数据集对模型进行微调,打通自己的知识库,使其更贴合特定领域的应用,比如编程、法律、财经、科研等领域。通过定制化,模型能够给出更精准、更符合需求的回答和解决方案,提升应用效果。
  • 性能和效率: 云端的大模型在处理大量请求时,可能会出现卡顿、延迟等问题。比如 DeepSeek 不管是因为网络攻击,还是单纯的调用量大,都会频繁出现服务异常,非常影响使用体验。而本地部署的大模型则可以充分利用本地的硬件资源,如 CPU、GPU 等,从而提高处理速度和效率。此外,本地部署的大模型还可以避免网络延迟的问题,让我们能够更快地得到结果。

什么是LLM 应用开发平台

LLM 应用开发平台 是专为大规模语言模型(Large Language Model, LLM)应用设计的一整套工具和服务,旨在帮助开发者更高效地构建、管理、部署和维护基于 LLM 的应用。这类平台通过提供从模型选择、数据处理、训练调优到部署监控的全流程支持,简化了 LLM 应用的开发复杂度,使开发者能够专注于业务逻辑和创新,而无需深入底层技术细节。

一些常见的平台:

工具/平台类型核心特点适用场景
ChatBox本地聊天客户端轻量级、支持多种 LLM本地调试、对话测试
Open WebUIWeb 界面可视化、可扩展企业或个人 LLM 应用
Cherry Studio低代码平台拖拽式开发、快速构建快速原型开发、非技术用户
Page Assist浏览器扩展实时 AI 辅助、网页内容处理提升浏览效率、内容处理
LangChain开发框架灵活、支持复杂逻辑定制化 AI 应用开发
AnythingLLM企业级 LLM 平台私有化部署、RAG 集成企业知识库、智能问答系统
RagflowRAG 框架高效检索、生成能力强文档密集型问答系统

如果是开发者,推荐 LangChain 或 ChatBox,如果是企业用户,推荐 AnythingLLM 或 Ragflow,如果是非技术用户,推荐 Cherry Studio 或 Page Assist。当然Dify也是其中一种,后面着重介绍。

什么是RAG技术

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合了信息检索和文本生成的技术,主要用于提升大语言模型(LLM)在问答、对话和内容生成等任务中的准确性和可靠性。RAG 的核心思想是通过检索外部知识库或文档来增强生成模型的能力,从而生成更准确、更有依据的答案。

简单理解就是:给模型配个外挂, 比如一个学生考试不会做题,但是旁边有个超级图书馆,每次做题前都翻一下图书馆里面的书,答案马上就精准了,RAG就是这么回事。所以一般配合大模型来进行检索,一般有以下步骤:

  1. 准备知识库,把一堆文档(比如公司文档,历史文章等等)整理好,存在一个图书馆里。
  2. 当问模型问题时,他先去图书馆搜索相关的资料,然后结合自己的知识融会贯通,最后进行回答。
  3. 模型本身不会改变,只是多个查资料的步骤。

通过以上例子可以看出,RAG 技术的核心优势在于:

  1. 准确性:答案基于检索到的权威信息,避免生成错误内容。
  2. 可解释性:用户可以查看检索到的文档片段,验证答案来源。
  3. 动态更新:只需更新知识库,系统就能提供最新信息。

RAG 技术特别适合需要高准确性和可解释性的场景,如企业知识库、教育问答、医疗诊断等。

完整的RAG应用流程主要包含两个阶段:

  • 数据准备阶段:数据提取->文本分割->向量化(embedding)->数据入库
  • 应用阶段:用户提问->数据检索(召回)->注入Prompt->LLM生成答案

image.png

什么是AI Agent

AI Agent(人工智能代理) 是一种能够自主感知环境、做出决策并执行任务的智能系统。它结合了人工智能(AI)技术,如机器学习、自然语言处理(NLP)、计算机视觉等,能够模拟人类的行为或完成特定任务。

img

简单介绍就是:比如你想开一家网红奶茶店,Al Agent会掏出手机查 《商业计划书模板》,再自动注册公司账号,然后用Stable Diffusion设计LOG0,最后给外卖平台写AP1接入代码。优点是:能联动多个AI工具。

再比如:比如你想让Al Agent给你订一个情人节餐厅,它就会帮你爬取全网差评一排除评分<4.5的店;然后调用导航API计算最优路线,然后用你银行卡预存金额订位;最后生成《约会话术大全》发你邮箱。

AI Agend不单单是一个LLM对话机器人,或者单一的图片/代码生成工具,而是结合了多种大模型工具并结合工作流的智能体,真正模拟人类行为来完成复杂任务。

Ollama+Dify部署架构

img

Ollama安装和介绍

Ollama介绍

Ollama 是本地运行大模型的一款工具,支持在 Mac 、Linux 、Windows 上下载并运行对应的模型。

img

核心功能:

  • 简化部署:Ollama简化了在 Docker 容器中部署大型语言模型的过程,即使是非专业用户也能轻松管理和运行这些复杂的模型。
  • 模型管理:支持多种流行的大型语言模型,如Llama、Falcon等,并提供丰富的命令行工具和用户友好的 WebUI界面。
  • 模型定制:用户可以通过 Modelfile文件自定义模型参数和行为,实现模型的个性化设置。

技术优势:

  • 轻量级与可扩展:Ollama保持较小的资源占用,同时具备良好的可扩展性,允许用户根据硬件条件和项目需求进行优化。
  • API 支持:提供简洁的 API 接口,方便开发者集成到各种应用程序中。

使用场景:

  • 本地开发:开发者可以在本地环境中快速部署和测试大型语言模型,无需依赖云端服务。
  • 数据隐私保护:用户可以在本地运行模型,确保数据不离开本地设备,从而提高数据处理的隐私性和安全性。
  • 多平台支持:Ollama支持 macOS、Windows、Linux以及容器,具有广泛的适用性。

Ollama的目标是让大型语言模型的使用更加简单、高效和灵活,无论是对于开发者还是终端用户。

Ollama安装

  1. 访问官网 https://ollama.com/download 下载Ollama安装包并安装到本机,网速慢的可以使用迅雷下载。

img

  • 安装完成后可以通过 ollama --version 查看版本号。
  • 访问官网 https://ollama.com/search 选择一个需要部署的大模型,可以根据电脑配置合理选择需要部署的大模型,我这里选择deepseek-r1:7b
  • img

看到下图内容,表示安装成功:

img

Dify安装和介绍

Dify介绍

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。

Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间,使其可以专注在创新和业务需求上。

聊天机器人:

img

丰富的插件:

img

工作流:

img

Dify安装

安装docker

确保本机安装了Docker,如果没有, 需要先前往Docker官网下载并安装。

配置镜像地址:

img

 "registry-mirrors": [
    "https://hub-mirror.c.163.com",
    "https://docker.m.daocloud.io",
    "https://ghcr.nju.edu.cn",
    "https://mirror.baidubce.com",
    "http://dockerhub.azk8s.cn",
    "https://mirror.ccs.tencentyun.com",
    "https://docker.mirrors.ustc.edu.cn",
    "https://docker.nju.edu.cn",
    "https://2h3po24q.mirror.aliyuncs.com",
   "https://docker.1ms.run"
  ]

安装Dify

  • git clone https://github.com/langgenius/dify.git 下载Dify源码。
  • 进入 Dify 源代码的 Docker 目录
    cd dify/docker
  • 复制环境配置文件
    cp .env.example .env
  • 启动 Docker 容器(docker会找到docker-compose.yaml文件下载并启动)
    docker compose up -d
  • 运行命令后,看到下面所示后表示安装并启动成功:

    img

  • 检查容器是否正常运行

    docker ps

img

Dify关联大模型

安装全部完成后,可以在浏览器进入 http://localhost/apps 。第一次进入dify需要注册账号,按注册表单进行即可。

在Dify中关联本地大模型。右上角下拉选择设置 - 模型供应商 - 选择Ollama - 添加模型:

img

进入主页后就可以创建自己的大模型AI Agent了。

img

Dify知识库 (RAG)

开发者可以将企业内部文档、FAQ、规范信息等内容上传至知识库进行结构化处理,供后续 LLM 查询。

相比于 AI 大模型内置的静态预训练数据,知识库中的内容能够实时更新,确保 LLM 可以访问到最新的信息,避免因信息过时或遗漏而产生的问题。

LLM 接收到用户的问题后,将首先基于关键词在知识库内检索内容。知识库将根据关键词,召回相关度排名较高的内容区块,向 LLM 提供关键上下文以辅助其生成更加精准的回答。

Embedding

Embedding 嵌入是一种将离散型变量(如单词、句子或者整个文档)转化为连续的向量表示的技术。它可以将高维数据(如单词、短语或图像)映射到低维空间,提供一种紧凑且有效的表示方式。这种表示不仅减少了数据的维度,还保留了重要的语义信息,使得后续的内容检索更加高效。

知识库:

image.png

在知识库,选择合适的文件,上传后可以选择对应的Embedding模型:

image.png

系统按照用户自定义的规则将内容拆分为独立的分段。当用户输入问题后,系统自动分析问题中的关键词,并计算关键词与知识库中各内容分段的相关度。

根据相关度排序,选取最相关的内容分段并发送给 LLM,辅助其处理与更有效地回答,目前有score和topK两种指标。

召回测试

image.png

其中:

  1. Top K

    • 定义:表示从文档库中检索出的与输入最相关的K个文档或段落。
    • 作用:用于限制生成器使用的文档数量,确保生成内容基于最相关的信息。
  2. Score

    • 定义:表示检索到的文档或段落与输入的相关性分数,通常由检索模型计算。
    • 作用:分数越高,文档与输入的相关性越强,生成器会优先使用高分文档。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 本地部署 DEEPSEEK 使用 Ollama 和 DeepSeek 并整合 Dify #### 配置与集成概述 为了实现 DEEPSEEK 模型的本地部署并将其与 Ollama 和 Dify 整合,需要完成以下几个核心部分的工作:安装和配置 Ollama、下载和运行 DEEPSEEK 模型以及将这些组件与 Dify 进行无缝连接。 Ollama 是一种轻量级工具,用于管理和运行大型语言模型 (LLM),支持多种模型架构。通过简单的命令即可启动指定版本的 DEEPSEEK 模型[^2]。而 Dify 则是一个应用框架,可以作为前端或中间件来调用 LLM 提供的服务。 --- #### 安装和配置 Ollama 要开始使用 Ollama 来管理 DEEPSEEK 模型,请按照以下方法操作: 1. **安装 Ollama** 下载最新版 Ollama 工具包,并根据操作系统执行相应的安装脚本。官方文档提供了详细的说明,确保环境满足最低依赖条件。 2. **拉取 DEEPSEEK 模型** 执行以下命令以获取特定版本的 DEEPSEEK 模型: ```bash ollama pull deepseek-r1:1.5b ``` 此命令会自动从远程仓库中提取 `deepseek-r1` 版本号为 `1.5b` 的预训练权重文件到本地存储路径下。 3. **验证模型加载状态** 启动服务前可以通过列表查看已成功导入的所有可用模型实例及其元数据信息: ```bash ollama list ``` --- #### 启动 DEEPSEEK 模型 一旦完成了上述准备工作,则可通过如下指令激活目标模型实例以便后续请求访问它所提供的功能接口: ```bash ollama run deepseek-r1:1.5b --port=11434 ``` 此命令将在默认端口上暴露 RESTful API 接口给外部程序调用,默认监听地址通常设置为 localhost 或者自定义 IP 地址。 --- #### 将 Ollama 与 Dify 集成 Dify 可作为一个灵活的应用开发平台,允许开发者轻松接入第三方 AI 能力。以下是具体步骤描述: 1. **创建项目结构** 初始化一个新的 Python 环境或者 Node.js 应用来承载整个业务逻辑流程设计工作流。 2. **编写适配器代码** 构建 HTTP 请求发送模块向刚才提到过的 Ollama 实例发起交互动作;例如利用 requests 库(Python)或其他同等效用库处理 POST 方法提交 JSON 数据体至 `/api/generate` 终结点位置处[^1]: ```python import requests url = "http://localhost:11434/api/generate" payload = { "prompt": "Tell me about the history of artificial intelligence.", "max_tokens": 100, "temperature": 0.7 } headers = {"Content-Type": "application/json"} response = requests.post(url, json=payload, headers=headers) result = response.json() print(result["response"]) ``` 3. **扩展应用程序界面** 结合实际场景需求进一步完善图形用户界面上展示效果等内容呈现形式等方面考虑因素进去之后再做最终调整优化方案出来就可以了. --- ### 总结 综上所述,在本地环境中部署 DEEPSEEK 模型并通过 Ollama 加载后,能够借助简单几行脚本快速搭建起一套完整的对话系统原型演示案例。与此同时,引入像 Dify 这样的高级别封装层还可以极大简化日常维护成本的同时提升整体用户体验满意度水平^. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值