书生·浦语大模型实战营笔记 03

最新推荐文章于 2024-07-21 07:44:54 发布

维数灾难终结者

最新推荐文章于 2024-07-21 07:44:54 发布

阅读量604

点赞数 14

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48006518/article/details/136106269

版权

基于 InternLM 和 LangChain 搭建你的知识库

目录

基础作业：

进阶作业：

RAG（检索增强生成）

Finetune（微调）

过程：加载源文件--文档分块--文档向量化

将 InternLM 接入 LangChain

RAG 方案的优化

作业

基础作业

复现课程知识库助手搭建过程 (截图)

进阶作业

选择一个垂直领域，收集该领域的专业资料构建专业知识库，并搭建专业问答助手，并在 OpenXLab 上成功部署（截图，并提供应用地址）

采用了开源的法律文库（just-laws），加入了向量数据库索引，提问法律问题效果如下：

注：因为账号在 OpenXLab 没有 GPU 资源配额，所以在 InternStudio 部署，并使用 SSH 转发到本地打开。

笔记

RAG（检索增强生成）

- 低成本
- 可实时更新
- 受基座模型影响大
- 单次回答知识有限

RAG流程（图片截取自视频）

Finetune（微调）

- 可个性化微调
- 知识覆盖面广
- 成本高昂
- 无法实时更新

过程：加载源文件--文档分块--文档向量化

- 确定源文件类型，针对不同类型源文件选用不同的加载器
- 核心在于将带格式文本转化为无格式字符串
- 由于单个文档往往超过模型上下文上限，我们需要对加载的文档进行切分
- 一般按字符串长度进行分割（chunk）
- 可以手动控制分割块的长度和重叠区间长度
- 使用向量数据库来支持语义检索，需要将文档向量化存入向量数据库
- 可以使用任一一种 Embedding 模型来进行向量化
- 可以使用多种支持语义检索的向量数据库，一般使用轻量级的 Chroma

将 InternLM 接入 LangChain

- LangChain 支持自定义 LLM，可以直接接入到框架中
- 可以将 InternLM 部署在本地，并封装一个自定义 LLM 类，调用本地 InternLM 即可
- LangChain 提供了检索问答链模板，可以自动实现知识检索、Prompt 嵌入、LLM 问答的全部流程

基于 LangChain 搭建 RAG 应用（图片截取自视频）

RAG 方案的优化

- 基于 RAG 问答系统的性能受限于：
- 检索精度
- Prompt 性能
- 优化方向：
- 基于语义进行分割，保证每一个 chunk 的语义完整
- 给每一个 chunk 生成概括性索引，检索时匹配索引
- 迭代优化 Prompt 策略

参考文档：

LangChain Chat with Your Data

动手学大模型应用开发

维数灾难终结者

关注

14
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
书生·浦语大模型实战营笔记 03

LangChain 提供了检索问答链模板，可以自动实现知识检索、Prompt 嵌入、LLM 问答的全部流程。- 可以将 InternLM 部署在本地，并封装一个自定义 LLM 类，调用本地 InternLM 即可。选择一个垂直领域，收集该领域的专业资料构建专业知识库，并搭建专业问答助手，并在。- 可以使用多种支持语义检索的向量数据库，一般使用轻量级的 Chroma。- 使用向量数据库来支持语义检索，需要将文档向量化存入向量数据库。- 基于语义进行分割，保证每一个 chunk 的语义完整。
复制链接

扫一扫

维数灾难终结者 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

145万+: 周排名

18万+: 总排名

3675: 访问

: 等级

131: 积分

53: 粉丝

69: 获赞

7: 评论

89: 收藏

私信

关注

热门文章

最新评论

书生·浦语大模型实战营笔记 06
CSDN-Ada助手: 恭喜用户写出了第6篇博客！看来书生·浦语大模型实战营的学习成果丰硕啊！希望您继续坚持创作，分享更多学习心得和经验。或许下一步可以尝试结合实际案例，进一步深入探讨模型应用的具体场景，这样更能让读者受益匪浅。期待您的下一篇作品！
书生·浦语大模型实战营笔记 05
CSDN-Ada助手: 恭喜您持续创作，第5篇博客内容丰富，让读者能够深入了解浦语大模型实战营的相关知识。希望您在接下来的创作中，可以加入一些个人的见解和心得体会，这样可以更好地吸引读者的注意。期待您的下一篇作品，继续加油！
书生·浦语大模型实战营笔记 04
CSDN-Ada助手: 恭喜作者持续更新博客，分享浦语大模型实战营的学习笔记。希望您能够继续保持创作的热情，不断学习和总结，为读者提供更多有价值的内容。建议在下一篇博客中，可以结合个人实战经验，分享一些具体的案例分析或者技术解决方案，让读者能够更直观地感受到您的学习成果。期待您的精彩分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
书生·浦语大模型实战营笔记 02
征途黯然.: I knew nothing about 书生浦语大模型实战营笔记02 before, but after reading this article, I have a deeper understanding.
书生·浦语大模型实战营笔记 03
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题为“书生·浦语大模型实战营笔记 03”，非常吸引人。您的坚持和持续创作真是令人佩服。在这篇博客中，您一定分享了有关浦语大模型实战营的宝贵经验和心得。接下来，我希望您能继续保持这种积极的创作状态并坚持分享，毕竟您的经验对于其他读者来说也是非常有价值的。如果可能的话，您可以考虑分享一些具体的实战案例或者深入分析一些相关的技术细节，这样能够更好地帮助我们理解和应用浦语大模型。我期待着您下一篇博客的发布，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。