如何利用大模型+RAG构建知识问答助手？

最新推荐文章于 2025-05-07 11:23:12 发布

朝阳区靓仔_James

最新推荐文章于 2025-05-07 11:23:12 发布

阅读量1k

点赞数 9

文章标签：人工智能开源音视频产品经理 ui

本文链接：https://blog.csdn.net/weixin_58753619/article/details/143061660

版权

知识问答助手已经成为企业在探索大模型应用时的首选场景之一，基于大模型的知识问答助手不仅能够自动整合企业内外部的海量信息，构建全面、精准的知识图谱，还能够通过自然语言查询，实现一键触达精准答案。

大模型存在幻觉问题、可解释性差、隐私和安全问题等明显缺点，为了提高知识问答的准确率，一种基于“大模型+RAG（检索增强生成）”架构的方式正在形成。

RAG的本质是在大模型交互之前提前进行搜索，召回正确的上下文给到大模型，决定了大模型生成的天花板。通过RAG的方式扩展大模型，为企业提供了一种将企业私有数据“外挂”给大模型的方式，使企业不需要为了特定任务重新训练整个大模型（微调或从头构建），可大幅提升大模型的生成质量和结果的有用性。

但是，利用RAG方式扩展大模型也存在一些不足，例如：

• RAG受限于上下文窗口，限制了可发送给模型的检索信息量。同时，增强提示的额外检索步骤可能会导致延迟，影响模型反馈的及时性；

• 使用RAG方式需要重新设计技术架构和工作流程，接入新的技术组件如向量数据库、embedding模型等，增加这些技术组件会带来额外的成本；

• 企业需要在访问控制、信息检索、检索输出监控等方面建立防护机制，避免敏感信息泄露问题。

沙丘智库长期跟踪调研大模型技术的发展，旨在帮助企业快速了解大模型最新、最全面的落地情况。沙丘智库通过研究中国三峡集团、江西移动、火山引擎、字节跳动、PingCap等企业利用“大模型+RAG”构建知识问答助手的实战经验，旨在为其他企业提供参考。

▎案例1：中国三峡集团水电运维知识问答系统

基于大模型，中国三峡集团构建了水电运维知识问答系统，采用基于大语言模型的微调（SFT）+检索增强RAG（外挂向量数据库）的技术路线，具体实现步骤如下：第一，收集领域知识数据构造知识库；第二，对知识库中的数据进行文本提取和文本拆分，得到文本块；第三，利用嵌入向量表示模型给出文本块嵌入表示，并利用向量数据库进行保存；第四，根据用户输入信息的嵌入表示，通过向量数据库检索得到最相关文本片段，利用提示词模板与用户输入以及历史消息合并输入大语言模型；第五，将大语言模型结果返回用户。

▎案例2：江西移动大小模型协同的企业级私域知识检索平台

江西移动通过”大模型挂载小模型，小模型驱动大模型“的方式，构建企业级RAG开放能力平台——江小智。平台通过大小模型协同，打造通用知识管理能力，具有很好的应用泛化性和较高的知识互动精准性。平台为江西移动办公知识检索、一线营销培训等业务场景带来显著的价值提升。

▎案例3：火山引擎基于大模型的智能问答实践

火山引擎基于RAG技术实现智能问答，RAG通过从外部知识源动态检索信息，并使用检索到的数据作为组织答案的参考，显著提高响应的准确性和相关性，有效解决大模型中存在的幻觉问题。

RAG方案实现的核心在于两点，一是在检索阶段做到比较高的topk召回率，分为两路召回，一路是通过倒排索引检索召回，另一路是通过向量化方式召回，两路召回需要混排；二是支持比较大的context window，并能从较多相关信息中总结出正确答案。

▎案例4：字节跳动答疑机器人场景大模型实践

研发基建部门日常需要安排答疑值班，回答用户关于基建相关的咨询，字节跳动将研发答疑场景作为切入点，利用大模型构建答疑机器人，并联动研发领域沉淀多年的知识积累，答疑机器人充分利用RAG和FineTuning两种建设思路的优势。

▎案例5：PingCAP大语言模型问答助手构建实践

PingCAP采用RAG的方式训练TiDB Bot，对于大语言模型无法限制输出、OpenAI官方Embedding Model对多语言支持不健全、检索结果不准确的问题，PingCAP采用如下优化方式：

· 对于模型输出结果，PingCAP参考PPLM方法，通过GPT3.5/GPT4等大模型对用户输入进行判别，如果用户输入和TiDB相关则正常回答，如果无关则不回复；

· PingCAP选择自托管Embedding Model，通过GenQ生成chunk-question对，训练的损失函数使用multiple negatives ranking loss，训练后自托管Embedding Model的准确率基本接近于OpenAI的Embedding Model；

· 为了提高检索结果准确率，PingCAP主要通过添加RAG、及时更新向量库等方式解决。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述