蚂蚁 DB-GPT 也开源了 GraphRAG,能用吗?好用么?看这篇就够了

最近蚂蚁开源的 DB-GPT 上线了类似微软的 GraphRAG,并且宣称比 GraphRAG 节省 1 倍的 Token,而且官方的一张可视化图谱吸引了我,漂亮是真漂亮,真金不怕火炼,我来上手测一遍,让你少踩一次坑。

我之前一直有测试和使用微软 GraphRAG,微软的 GraphRAG 目前已经更新到 1.0.1,从 0.3.0 之后基本都是重构代码,仍然不支持多文件格式,距离生产依然很遥远。

1. DB-GPT

DB-GPT 是蚂蚁金服开源的一款 AI 原生数据应用开发框架,具有 AWEL(Agentic Workflow Expression Language)和智能体功能,旨在通过开发多模型管理(SMMF)、Text2SQL 效果优化、RAG 框架及优化、多智能体框架协作、AWEL(智能体工作流编排)等多种技术能力,在大模型领域构建基础设施。目标是在在数据 3.0 时代,企业和开发者可以基于模型和数据库,用更少的代码构建定制化应用程序。

介绍就不过多展开了,请看下图框架。这是个什么东西啊?大杂烩吗?好全啊,什么都有,这确定是一个代码仓库能干的事情?我不敢相信这是蚂蚁金服这样的公司开源的框架,在我看来这就是个 demo,除了那张可视化图是生产级别。吐槽完毕,让我们看看 DB-GPT 中 GraphRAG。

2. 安装

  • 首先,创建和激活虚拟环境。
conda create -n dbgpt python=3.10   conda activate dbgpt   
  • 克隆代码
git clone https://github.com/eosphoros-ai/DB-GPT.git   cd DB-GPT   
  • 安装依赖
pip install -e ".[default]" pip install -e ".[openai]" pip install "dbgpt[graph_rag]>=0.6.1"

这里会安装特别多的东西,什么 torch transformer,依赖就装了 1.9G。

  • 安装图数据库 TuGraph
docker pull tugraph/tugraph-runtime-arm64v8-centos7:4.5.1:latest docker run -d -p 7070:7070 -p 7687:7687 -p 9090:9090 --name tugraph_demo tugraph/tugraph-runtime-arm64v8-centos7:4.5.1:latest lgraph_server -d run --enable_plugin true

注意这里要根据自己的电脑架构去 Dockerhub 下载 tugraph,我是 Apple M1 Arm 的芯片。

  • 下载嵌入
cd DB-GPT mkdir models and cd models git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese

不能理解,启动一个框架要先下载嵌入是什么操作?

  • 配置
cp .env.template .env

我想配置为线上的免费 glm-4-flash,并且使用本地 LM Studio 的 Embedding,改了一圈.env 中的配置。启动都是报错,人都麻了。直接修改代码:

- dbgpt/model/proxy/llms/chatgpt.py   设置模型为glm-4-flash   

并且配置环境变量

OPENAI_API_KEY=your api key   OPENAI_BASE_URL=https://open.bigmodel.cn/api/paas/v4   
  • 启动
python dbgpt/app/dbgpt_server.py   

可能报缺少 httpx[socket]之类的包,照着提示安装就是了。

启动过程中,还是可能看到什么 OPENAI_BASE_URL 没配置的问题,忽略。

3. 运行

打开网页:http://localhost:5670/,然后我们在应用管理-知识库中点击创建知识库。

在弹框中存储类型选择知识图谱,其他输入后点击下一步。

在知识库类型中选择文档,它会自动跳转到第 3 步上传。

上传这里选择上传官方文档中的 3 个文件:tugraph.md[1]、dbgpt.md[2]、osgraph.md[3].

在第四步中默认选择,点击切片处理即可,这里要等待很久,界面也不会推出,还能点击切片处理,不知道咋想的。

跑不通报错,给 neo4j 上 leiden 插件失败了,然后似乎把整个二进制 so 打印出来了,命令行界面因此都会卡起来。

这可能是系统的问题,或者不知道的原因。总之切片这里看起来是初始化图谱社区就失败了,我们在页面执行同步,在日志中将能够看到 DB-GPT 的 GraphRAG 采用的 Prompt 很简单,提取的就是典型的三元组,大约 287 个 Token,而微软的实体提取 Prompt 是 2037 个 Token

此外,微软的 GraphRAG 提取的不是常规的三元组,他是提取的实体和关系描述,因此它的输出也会大。因此,蚂蚁的 GraphRAG 能够节约 1 倍的 Token 来源,并不是流程上的优化,而是 Prompt 的缩减。

在这里插入图片描述

4. 总结

本次解析就到这里了。虽然没能跑通,但是基本的东西已经看到了。我的观点是这个东西也只是个 Demo,而且如果你只是想用 GraphRAG,DB-GPT 不只是一个 RAG,不是一个软件,他是一个堆栈,你懂堆栈的意思吧?所以如果你只是想用 GraphRAG,我建议你直接用微软的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 类似于DB-GPT开源项目 对于数据库人工智能集成方面,存在多个类似于DB-GPT开源项目可以探索。这些工具旨在简化数据处理流程并利用机器学习技术增强数据分析能力。 #### 1. pgml pgML 是一个 PostgreSQL 扩展库,它允许用户直接在 SQL 查询中应用各种机器学习算法[^1]。通过这种方式,开发者可以在不离开熟悉的SQL环境的情况下构建预测模型和服务。此扩展支持多种流行的学习器,如线性回归、随机森林和支持向量机等。 #### 2. MindsDB MindsDB 提供了一个易于使用的平台来训练和部署AI驱动的应用程序到关系型数据库上运行[MindsDB官方文档][^2]。该软件不仅限于特定类型的数据库管理系统(DBMS),而是能连接至MySQL, MariaDB, MongoDB等多种主流存储系统,并提供直观界面帮助非技术人员快速入门。 #### 3. SQLite AI Extension (SQLite-AI) SQLite-AI是一个实验性的SQLite模块,集成了TensorFlow Lite推理引擎用于执行轻量化的人工智能任务[^3]。尽管其功能相对简单,但对于资源受限设备上的小型应用程序来说非常有用;同时由于基于广泛采用的标准文件格式(.sqlite),因此具有良好的兼容性和移植性特点。 ```sql SELECT * FROM my_table WHERE predict_column USING 'model_name'; ``` 上述代码片段展示了如何在一个假设的支持此类特性的数据库中调用预加载好的模型来进行预测操作的例子。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值