引言
问题:AI知识库是什么以及可以解决什么问题?
讲个小故事,
我是一个出生在图书馆的小男孩,从我出生起我就开始读武侠小说,至今我已经读了1000本武侠小说。现在,我正在写一本自己的武侠小说,但卡在了武功体系的设计上。我苦思冥想,毫无头绪,于是决定从我读过的书里找灵感——挑出300本写得好的,提取它们的武功体系,再融合创新,打造一个独一无二的体系。
可问题是,这300本我一天看10本,也要30天,太耗时间了!有没有更好的方法? 这时候我的程序员好基友看到我不开心,询问我后决定给我开发一个程序,解我之忧。他只花了1小时,帮我写了个程序,把这300本书上传到数据库,并连接了Deepseek的API。这样一来,Deepseek就能直接“读”这300本书了。
当我向Deepseek提问:“请参考这300本书,总结每本书的武功体系,帮我创立一个独特的武功体系。”神奇的事情发生了!Deepseek思考后,给出了一个全新的武功体系。我顿时眉开眼笑,我的好基友也跟着幸福地笑了。
这个故事要表达的是。
图书馆可以看作我们这个世界被书面化的知识,
而我读过的1000本书,是我目前掌握的知识。
从中挑出的300本,就是我认为最有价值的部分。
好基友帮我写的程序,就是我们今天要聊的“知识库+AI”。
让AI回答问题时,不是参考网上良莠不齐的知识,而是基于我精心筛选的、有价值的知识。简单来说,就是让AI更懂我,更贴合我的需求。
这样带来的改变是什么:
我只需要把所有关注的知识整理好,就像给大脑建一个目录,不需要记住每个知识点的全部内容。好处是,当我有了新点子或想法时,不用再翻来翻去查A、B、C、D、E、F……一大堆文档去验证可行性。我只需要问AI:“在我的知识库里,基于我的经验,找出和我的想法相关的知识点,再人工推算一下它的可行性。
现在回答
AI知识库是什么:个人大脑中的硬盘和CPU
AI知识库能解决什么问题:降低**AI幻觉,让AI更个性化**
正文
目前比较流行的知识库+AI的产品有哪些
省流推荐
-
腾讯 IMA 适合大多数人的需求,推荐在线个人使用,强烈推荐,我认为这个产品最好的地方是足够简单,简单到几乎没有帮助文档,会使用Excle就会使用IMA,只需要上传文档到知识库,就可以直接让AI根据知识库的内容回答,四步就可以搞定【下载安装->登录->上传文件->提问】;
-
Anaything 推荐离线个人使用,可以使用Anaything, Dify更好,但是部署起来有点麻烦
-
Dify 推荐开发者和企业用户使用,适合需要快速开发和多语言支持的开发者。
-
Coze 推荐开发者使用,要是想开发应用或者做一些复杂的AI工具可以尝试使用,单纯使用知识库不推荐。
-
FastGPT 推荐企业用户使用,适合需要深度定制和复杂知识管理的企业用户。
ima
腾讯出品
亮点功能:
-
可以直接在ima中浏览网页、进行问答、记笔记时都能随时收藏;
-
可以通过分享链接、二维码,将共享知识库分享给他人;
-
在微信中快捷导入文件,可以直接将公众号文章转存到ima中;
这是目前支持的平台
下载安装后主界面是这样的,简洁,看起来很舒服
主界面左侧边栏灯泡图标点开后就是知识库,
我新建了3个知识库,给其中一个知识库上传了两个文档。
进行简单的问答,不需要写复杂的提示词,给出的回答很精准。
另一个我认为比较重要的功能是,笔记功能。
为什么说这个功能重要,目前流行的知识库工具要么只能上传文件问答,要么只能记笔记;
而ima可以说打通了这两者;
点击左侧边栏灯泡下面的图标,
创建的笔记是Markdown格式,支持Markdown格式,平时记笔记,够用。
如果笔记功能把类似Notion、语雀的块编辑功能抄过来就更牛了
第三个功能是AI搜索,可以直接提问或者贴链接问答都可以
内嵌的模型是DeepseekR1和混元,支持联网
ima是目前为数不多的具备 AI搜索、AI知识库、AI笔记的产品,而且每一个功能体验下来都比目前市面上的同类型产品更流畅
Anaything LLM
亮点功能
-
支持离线部署
-
可以拿到源码修改
开源的离线AI知识库产品,是属于比较早的AI知识库产品
可以直接在官网下载桌面版安装,也可以到他们的github仓库找到Docker部署方法
github仓库:https://github.com/Mintplex-Labs/anything-llm
初始化结束后进入这个页面,会有默认的一个知识库
这里我新建了一个知识库用来测试,
点击知识库旁边的上传按钮上传文档到知识库,Anything LLM给知识库加载文件的逻辑是先把文件上传存储到软件的数据库中,再由用户决定要将哪些文档加载到现在要使用的知识库。
这个设计避免了多个知识库要共用一个文档是需要上传多次的情况,企业内部使用知识库时这一点非常重要
给知识库上传完文档后要设置下使用的大模型,点击知识库旁边的设置按钮->选择聊天设置->工作区LLM提供者,
我这里用ollama本地部署的deepseek-r1:7b模型
如果没有启动,就会出现下面的这个报错
启动ollama后在知识库提问,看起来回答了,但和我上传的文档里面的内容不一样(红色框内是原文档内容),其实它已经找到我上传的文档了,可能是大模型参数太小导致的
单从本次对话看,Anything LLM表现不是那么好,但是这个产品最初主要面向的用户是开发者,需要对知识库做一系列设置(文本分割、LLM温度、向量数据库设置)后才能有很好的效果
Dify
亮点功能:
-
-
工作流方式,为AI的使用提供了很多可能性
-
可以在线使用也可以离线部署,支持在线调用大模型和本地ollama接口,组合方式非常自由
-
易于使用的界面和 API,
-
官方地址:Dify.AI · 生成式 AI 应用创新引擎新一代大型语言模型应用开发框架,轻松构建和运营生成式 AI 原生应用。https://dify.ai/zh
Github仓库:https://github.com/langgenius/dify
我这里使用的Docker本地部署,需要本地先安装好Docker和Docker Compose以及Git
具体步骤:
git clone https://github.com/langgenius/dify.git cd dify cd docker cp .env.example .env docker compose up -d
上面的命令逐个敲一遍,等待每个命令执行完成,访问 http://localhost/install就可以看到dify的初始化页面,
这里需要注意Docker的镜像库大概率需要 特殊网络 才能访问到,
执行docker compose up -d命令时可能会遇到下面这个报错,可以选择换镜像源试试
Error response from daemon: Get “https://registry-1.docker.io/v2/
安装完成后需要 注册->登录
管理员的邮箱、用户名、密码,这里的账户信息随便填,只要能记住就可以
然后使用刚注册的账号登录
进来后界面基本是空的,
点击“创建空白应用”,可以选择创建五种类型的应用
-
聊天助手:会创建一个类似chatgpt的聊天对话应用
-
Agent:比起聊天助手多了 工具的引入和自迭代功能,工具里面可以添加代码解释器、插件、工作流等,自迭代就是提一次问题,模型会把自己的回答再反思下重新回答,迭代结束后给出一个最终的答案。迭代的次数可以设置
-
文本生成应用:作用就是封装提示词,处理文本相关的工作,比如:提取关键字、拼接文本、生成内容大纲....等等
-
chatflow:在chatflow中可以和自己编排的工作流进行多轮对话,有记忆功能,
-
工作流:节点的集合,通过合理的插入节点实现特定的任务,一个工作流也可以当成一个节点使用
下图是我创建的一个简单的工作流,这个工作流中有四个节点,整个工作流的作用是将文件中的标题提取出来
节点:可以是一个代码执行器、也可以是一个Agent、也可以是一个工作流,是一系统功能的总称,是dify这个平台的核心
dify的玩法有很多,既可以做基础的AI知识库使用,同时可以开发复杂的AI应用,这里先不展示更多的例子。
Coze
亮点介绍:
-
功能多
-
国产
-
支持工作流构建应用
字节的产品,目前只支持web端
进来后首页是这样的
左上角加号点击后弹窗中两个个选项,创建智能体和创建应用,这两者的区别是什么:
-
智能体:利用大语言模型使用知识、插件等功能解决模型幻觉、专业领域知识不足等问题。这个智能体在使用时页面是固定的,还是一个chat页面,只不过你的每个提问都会经过多个节点的处理再给出回答;
-
应用:支持个性化的用户界面,在创建这个应用的过程中用户可以自定义UI界面,选择数据库,设计工作流。这个功能可以让用户不写任何代码就能开发出AI应用;
这篇文章只演示知识库的功能,
先是上传文档到知识库,目前上传文档解析很慢,可以后台解析,先做其他事
文档上传好之后,新建智能体
在工作流那一栏 点击+号 -> 然后点击创建工作流,
这个工作流本来我想提取文档中的标题,结果输入提示词“提取文档中标题”后输出为空,识别不到任何内容,将提示词更换为“提取文档中的文本”后才能输出一些文本,输出的东西和我想要的效果差很多,
试运行没问题后就可以发布,发布后就可以添加到智能体工作流那一栏中了
智能体发布的时候可以选择要发布的平台,这个也是Coze的亮点之一,可以发布到多个平台
然后就可以在应用商店找到自己发布的智能体开始对话
Coze的知识库检索功能体验下来,不太好,操作并不简单,体验并不舒服,检索并不精准,字节的好些AI产品感觉都是半成品
结语
现在市面上的AI工具越来越多,
比起单一选择时反而增加了用户的选择成本,
宣传时都是“颠覆时代”“震惊全球”“当今最强”,
玩不尽的文字游戏,
一遍遍消耗着用户的耐心,
而用户想要什么?
简单,好用。
很多人做产品的初衷都是如此,
但有多少产品真的做到了