人人都能学会，快速搭建个人知识库-CSDN博客

本文链接：https://blog.csdn.net/ytt0523_com/article/details/141641228

在电子设备无限普及的今天，个人的学习和工作资料库基本都已经全部数字化，一套WPS或者office，外加个PDF，生活工作所需资料的管理就到位了。

一台电脑一台手机，就是打工人的全部家当，丢啥都不能丢了这哥俩。

如何高效管理和检索这些繁杂的资料？传统的分时间分功能分类管理耗时耗力不说，检索起来经常要花很长时间。

现在，我们有了更好的选择——知识库。

知识库是一种基于计算机和网络技术的信息化知识管理系统，它将组织或个人的各类知识内容，如文档、图片、视频、音频和数据库等，以数字化形式存储、分类和索引，便于用户通过电子设备进行高效检索、访问和共享。

知识库主要有两个功能：存储和检索。

存储使用一个硬盘就可以实现，关键是检索技术。

知识库检索技术的发展历史是一个长期且持续进化的过程，涵盖了从早期的手工检索系统到现代高度自动化的智能检索系统的转变。其发展主要经历以下三个阶段：

1. 起源与早期发展（20世纪初 - 1970年代）

在计算机技术出现之前，知识库检索主要依赖于手工操作，例如图书馆的卡片目录系统。这种手工检索方式虽然能够满足基本需求，但效率较低，限制了信息检索的速度和准确性。随着1950年代计算机技术的发展，第一批计算机化检索系统开始出现，它们能够存储和索引大量文献信息，用户可以通过计算机终端提交查询请求，系统返回匹配的结果。到了1970年代，关系型数据库和SQL（结构化查询语言）的引入，使得数据检索变得更加灵活。

2. 全文检索与互联网搜索时代（1980年代 - 2000年代）

随着电子文档数量的增加，全文检索技术应运而生，允许用户搜索文本文件中的任意词句。这一时期的全文检索工具，如Unix/Linux下的grep和windows的文档搜索，极大地提高了文本数据检索的效率。进入1990年代，互联网的普及带来了对更高效检索工具的需求，搜索引擎如Google、Bing等的出现，彻底改变了信息检索的方式。这些搜索引擎使用复杂的算法来索引网页，并根据相关性对搜索结果进行排序，使得用户能够快速获取所需信息。

3. 知识图谱、语义网与人工智能时代（2000年代 - 至今）

21世纪初，知识图谱技术通过图形化表示知识，捕捉实体间关系，使得检索系统能够更好地理解和推理知识。语义网技术通过RDF（Resource Description Framework）等标准，提高了机器对网络信息的理解和处理能力。到了2010年代，人工智能和机器学习技术的飞速发展，尤其是自然语言处理（NLP）的进步，使得检索系统能够更准确地理解用户的查询意图，并提供更个性化、更准确的搜索结果。现代检索技术不仅能够处理文本，还包括图像、视频和音频等多种数据类型，提供更丰富的搜索体验。

RAG（Retrieval-Augmented Generation，检索增强）

RAG模型是一种结合了信息检索和文本生成的先进方法，它特别适用于需要理解和生成自然语言的场景，比如问答系统。想象一下，当你在搜索引擎中输入一个问题时，你期望得到一个直接的答案，而不仅仅是一些链接。RAG模型正是为了提供这样的服务而设计的。

典型的RAG应用程序包含两个主要组件：

检索组件（Retrieval Component）：

这个组件负责从大量数据中检索相关信息。它通常使用一个索引系统，如倒排索引，来快速找到与查询相关的文档或信息片段。
检索组件可以基于关键词、短语或整个问题来搜索，以找到最相关的信息。
检索结果通常用于提供上下文信息，帮助生成组件更好地理解和回答问题。

在构建RAG（Retrieval-Augmented Generation）模型的索引过程中，通常遵循以下四个关键步骤：

加载（Load）：
初始阶段涉及从数据源中加载原始数据集，这些数据集可能包含文本文档、网页或其他形式的数据。加载过程是索引构建的基础。
分割（Split）：
随后，原始数据集被分割成更易于管理和索引的单元，例如段落、句子或关键词。分割过程旨在优化数据结构，以便于后续处理。
嵌入（Embedding）：
接下来，对分割后的数据单元进行嵌入处理，即将文本数据转换为数值型向量表示。这通常通过使用预训练的神经网络语言模型（如BERT、GPT等）来实现，以捕捉文本的语义特征。
存储（Store）：
最终，生成的嵌入向量被存储在一个高效的索引结构中，如倒排索引。这种索引结构允许快速检索与特定查询相关的数据，从而在RAG模型中实现快速响应。

生成组件（Generation Component）：

生成组件是一个文本生成模型，通常是基于Transformer架构的预训练语言模型，如GPT、BERT等。
这个组件使用检索到的信息作为上下文，生成回答或完成其他文本生成任务。
生成组件能够理解检索到的信息，并将其与用户的查询结合，以生成流畅、相关且准确的文本输出。

![](https://img-blog.csdnimg.cn/img_convert/1f7fc1839f9ff91000b4cbceb29fe9a4.png)

Long-chain Reasoning（长链推理）

长链推理是一种在知识库中进行深层次、多步骤逻辑推理的技术。它类似于解决一个复杂的谜题，需要将不同的线索和信息组合起来，通过一系列的逻辑步骤来找到答案。

长链推理的过程通常包括：

信息提取：首先，系统需要从知识库中提取相关的信息，这可能包括实体、属性和它们之间的关系。
构建推理链：系统根据提取的信息构建一条推理链。这条链可能包含多个步骤，每一步都是基于前一步的结论进行的。
多步骤推理：系统沿着推理链进行多步骤的推理，每一步都可能引入新的信息和关系，直到得出最终结论。

长链推理的应用场景包括：

复杂问题解答：对于一些需要多个知识点和逻辑推理的问题，长链推理能够提供更加深入和全面的答案。
决策支持：在需要综合多个因素进行决策的场景中，长链推理可以帮助分析各种可能性和结果。
知识发现：长链推理有助于在知识库中发现新的知识和关系，推动科学发现和创新。

RAG和longchain的不同之处：

应用重点：RAG侧重于生成自然语言回答，而Long-chain Reasoning侧重于逻辑推理过程。
技术实现：RAG通过检索和生成相结合的方式来提供答案，Long-chain Reasoning通过构建和执行推理链来进行深入分析。
性能要求：RAG可能更依赖于检索系统的效率和文档的质量，Long-chain Reasoning则可能需要更多的计算资源来处理复杂的推理。
适应性：RAG能够适应各种类型的查询，而Long-chain Reasoning更擅长处理需要深层次推理的问题。

通过RAG和longchain，可以让信息的存储和检索更为高效，这二者自然而然也就成了搭建知识库的不二首选。

QAnything 是网易有道自研的 RAG（Retrieval Augmented Generation) 引擎，允许用户上传 PDF、图片、Word、Excel、PowerPoint 等多种格式的文档，并结合QAnything大模型实现互动问答功能，每个答案都可以追溯到相应的文档段落来源。QAnything支持在线和纯本地部署两种方式。本地部署的要求是电脑自带Nvidia显卡(推荐3090及以上)。

QAnything 系统架构图

一般人可能没有这么好的显卡配置，可以先体验Qanything的在线版本。

在线版本进去以后页面非常简洁，关键的两个功能是知识库和Bots

知识库，顾名思义，就是上传资料内容的容器，包括文档和网址，也就是说除了直接的文档，某些文章的链接也可以发给它，它可以自动爬取和整理网页内容作为知识存储下来。

上传文档格式包括格式md、txt、pdf、jpg、docx、xlsx、pptx、eml、csv，文件总个数<1万个，单个文档<100M，单个文件字数<500万字，图片<5M。

这个知识库容量非常可观了，一般人的电脑里有用的文档是不可能超过1万个的。

上传资料的时候，除了一般性的文档，还可以有针对性的上传问答集数据，这样一来经过调整的模型回答精准度更高。

如果你想做一个垂直行业的问答机器人，只要把相关领域的内容整理成问答形式，以excel表格式上传即可。

例如做一个医疗领域的AI问答机器人，只需要整理或者搜集相关的医疗内容，并以问答形式上传，就可以得到一个回答精准的医疗AI问答机器人。

同一个账号可以创建多个知识库，自命名即可。

上传完资料以后，接着创建属于自己的机器人Bot。

Bot是一种人工智能技术的应用，通过自然语言处理和机器学习来理解用户的问题，并从大量数据中检索信息，生成或选择答案，以实现与用户的流畅对话。Bot能够不断学习并优化其回答，提供全天候自动化服务，广泛应用于客户支持、信息查询和个性化推荐等多个领域。

可以把Bot理解为一个前端输出应用，但是这个应用不是单纯的输出，而是可能融合了大语言模型的，具备自我学习和智能生成答案的智能程序。

在这里，Bot也被称为Assistant，点击“创建Assistant”可创建。

其中角色设定需要进行定制化设定。

撰写AI知识库BOT的角色设定可以简化为以下几个关键步骤：

确定角色：设定BOT的身份和职责，比如“健康咨询助手”。
定义专长：明确BOT的知识范围，如医学、法律或技术支持。
设定交流方式：决定BOT的交流风格，例如友好、专业或幽默。
设计对话：创建BOT的问候、回答和结束对话的标准语句。
赋予个性：给BOT一些个性特征，如耐心、知识渊博。
考虑学习机制：决定是否让BOT通过用户互动学习并改进。
确保隐私安全：设计时保护用户数据，遵守隐私法规。

假设我们要为一家科技公司撰写一个名为“TechSupportBot”的知识库BOT角色设定：``   ``角色目的：提供快速的技术支持和解答用户关于公司产品的常见问题。``知识领域：专注于该公司的产品和服务，如软件应用、硬件设备等。``交互风格：友好、专业、易于理解。``语言模式：``- 问候语："您好！我是TechSupportBot，您的技术助手。请问有什么可以帮助您的？"``- 结束语："感谢您的咨询，如果还有其他问题，请随时回来。"``- 问题回答："关于您提到的打印问题，这通常是由于...解决步骤如下："``个性特征：专业、耐心、乐于助人。``学习能力：具备基本的机器学习能力，能够根据用户反馈和常见问题更新知识库。``用户反馈机制：用户可以通过一个简单的反馈表单来评价服务和提供建议。``隐私和安全：确保所有用户数据都通过加密传输，并且遵守相关的隐私保护法规。

如果要把回答内容限定在知识库内，可以在角色设定里加上限制：

限制条件：``-请仅根据知识库内容提供答案。``-不要提供知识库之外的推测或信息。

随后选择要关联的知识库，可同时关联多个知识库。

关联好知识库就可以在右边进行知识问答了。

问：低时延通信

回答如下：

低时延通信在LTE系统中是一个重要的需求，特别是对于一些实时性要求较高的应用场景，如物联网、智能交通等。为了实现低时延通信，LTE系统采取了一系列的技术措施。``首先，LTE系统采用了OFDM技术，通过将频谱分成多个子载波并进行并行传输，可以降低传输延迟。同时，LTE系统还引入了循环前缀（CP）技术，通过在每个OFDM符号前添加一段循环前缀，可以抵消多径传播引起的时延扩展，减小符号间干扰（ISI）的影响。``其次，LTE系统采用了快速调度和调制技术，以减小传输时延。LTE系统中的调度算法可以根据用户的需求和信道质量，动态地分配资源，提高系统的吞吐量和响应速度。同时，LTE系统支持高阶调制方式，如64-QAM和256-QAM，可以在相同的带宽下传输更多的数据，进一步降低传输时延。``此外，LTE系统还引入了小区间协作和多天线技术，以提高系统的覆盖范围和信号质量。通过小区间协作，不同基站之间可以共享资源和信息，减小用户切换时延。多天线技术，如MIMO（Multiple-Input Multiple-Output），可以提高信号的可靠性和传输速率，进一步降低时延。``综上所述，LTE系统通过采用OFDM技术、循环前缀技术、快速调度和调制技术、小区间协作和多天线技术等一系列``找到了4个信息来源：``数据来源1:``LTE时频资源7——循环前缀.docx``数据来源2:``LTE时频资源4——FDD-LTE的时间结构.docx``数据来源3:``LTE时频资源4——FDD-LTE的时间结构.docx``数据来源4:``LTE时频资源8——LTE时间频率资源总结.docx