大模型RAG基础知识 #Datawhale AI夏令营

人良爱编程

已于 2024-08-18 01:44:02 修改

阅读量1k

点赞数 35

分类专栏：大模型文章标签： embedding langchain chatgpt

于 2024-08-14 22:10:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59786087/article/details/141201429

版权

什么是RAG

知识局限性：大模型的知识来源于训练数据，而这些数据主要来自于互联网上已经公开的资源，对于一些实时性的或者非公开的，由于大模型没有获取到相关数据，这部分知识也就无法被掌握。
数据安全性：为了使得大模型能够具备相应的知识，就需要将数据纳入到训练集进行训练。然而，对于企业来说，数据的安全性至关重要，任何形式的数据泄露都可能对企业构成致命的威胁。
大模型幻觉：由于大模型是基于概率统计进行构建的，其输出本质上是一系列数值运算。因此，有时会出现模型“一本正经地胡说八道”的情况，尤其是在大模型不具备的知识或不擅长的场景中。

检索增强生成（Retrieval Augmented Generation, RAG），引入外部知识，使大模型能够生成准确且符合上下文的答案，同时能够减少模型幻觉的出现。

1概览：一个完整的RAG链路

在这里插入图片描述

从上图可以看到，大模型接收到用户query后，RAG会先进行检索。

检索(Retrieval)：检索 Chunks 和 query 一并输入到大模型，进而回答用户的问题。

Chunks：query和离线文档经过parser和splitter（orc）向量化（或称索引）——>到Datebase然后和query一起进行Retrieval——>检索到相关的Chunks

第二次Retrieval——>输入query和相关的Chunks然后得到reanked的Chunks输入到LLM后得到Answer

query：在第一次Retrieval和第二次Retrieval的时候输入

为了完成检索，需要离线将文档（ppt、word、pdf等）经过解析、切割甚至OCR转写，然后进行向量化存入数据库中。接下来，我们将分别介绍离线计算和在线计算流程。

1.1离线计算流程

文件（pdf、word、ppt等，这些 文档documents）——解析parser——>切割为较短的Chunk——清洗和去重。

知识库中知识的数量和质量决定了RAG的效果，因此这是非常关键且必不可少的环节。

向量化（Vectorization）：Chunk转化为向量或者 `索引`（

最低0.47元/天解锁文章

人良爱编程

博客等级

码龄4年

33
原创

381
点赞

309
收藏

222
粉丝

关注

私信

热门文章

分类专栏

最新评论

Github使用Https登陆验证报错
CSDN-Ada助手: 恭喜您撰写了第10篇博客！对于Github使用Https登陆验证报错这一问题的解决方法，您的分享无疑对许多人有着积极的帮助。接下来，我建议您可以继续深入研究相关主题，或者分享一些实用的技巧和经验，让您的读者受益更多。期待您更多的精彩作品！祝您创作愉快！
OpenCV模板匹配
CSDN-Ada助手: 恭喜您撰写了关于OpenCV模板匹配的博客！这是一个非常有趣和实用的主题，我期待着看到更多关于OpenCV的内容。下一步，我建议您可以尝试探索一些高级的图像处理技术，例如目标检测或图像分割等，这将为您的读者带来更多的启发和帮助。期待您的下一篇博客！
排序算法的稳定性(Stability)和原地算法(In-place Algorithm)
CSDN-Ada助手: 非常感谢您分享关于排序算法稳定性和原地算法的知识，这是一个非常重要且深奥的话题。您的博客内容清晰易懂，让我对这两个概念有了更深入的了解。希望您能继续分享更多关于算法和数据结构的知识，或者可以尝试探讨一些实际应用场景下的算法优化问题。期待您的下一篇精彩文章！
冒泡算法的思路及改进
CSDN-Ada助手: 恭喜您写了第6篇博客！冒泡算法的思路及改进是一个很有深度的话题，您的文章内容很有见地，让我受益匪浅。希望您能继续保持创作的热情，不断探索更多有趣的算法及其改进方法。下一步，也许可以考虑分享一些实际应用场景下的算法优化案例，让我们更好地理解算法与现实生活的联系。期待您的下一篇文章！
Java输入输出-刷题总结
CSDN-Ada助手: 非常棒的博客总结！你的标题和摘要都很清晰地介绍了Java输入输出的处理方法。希望你能继续创作，分享更多关于Java的知识和技巧。除了你提到的循环控制整数值和处理指定数量的输入组外，还有一些扩展的知识和技能可以帮助你更好地处理输入输出。你可以学习如何使用Scanner类来读取不同类型的输入数据，例如读取字符串、浮点数等。此外，了解如何使用BufferedReader和BufferedWriter类可以提高输入输出的效率。另外，掌握异常处理机制能够更好地处理输入错误和异常情况。希望以上建议对你有所帮助，期待你在未来的博客中分享更多有关Java输入输出的内容。继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。