(202438)基于 InternLM 和 LangChain 搭建你的知识库

最新推荐文章于 2024-08-15 01:55:01 发布

菜菜荷包蛋

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量896

点赞数 11

文章标签： langchain python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62423629/article/details/136737402

版权

搭建一个自己的知识库

参考链接：https://github.com/InternLM/Tutorial/blob/main/langchain/readme.md

知识准备

**InternLM：**开源的轻量级训练框架

**LangChain：**LangChain是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口，可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。(LangChain 提供了多种文本分块工具)

**Sentence Transformers：**SentenceTransformers 是一个可以用于句子、文本和图像嵌入的Python库。可以为 100 多种语言计算文本的嵌入并且可以轻松地将它们用于语义文本相似性、语义搜索和同义词挖掘等常见任务。

**paraphrase-multilingual-MiniLM-L12-v2：**该模型将句子映射到384维的稠密向量空间中，可用于聚类或语义搜索等任务，是 sentence_transformers 库的模型之一。

langchain(2)—基于开源embedding模型的中文向量效果测试 - 袋鼠猪的文章 - 知乎
https://zhuanlan.zhihu.com/p/635670918

**Embedding：**用一个数值向量“表示”一个对象（Object）的方法，我这里说的对象可以是一个词、一个物品，也可以是一部电影等等

所有人都在谈的Embedding到底是什么？

https://blog.csdn.net/qq_42363032/article/details/113697287

**NLTK：**一个自然语言处理工具库，提供语料库、文本预处理、文本分类、语法分析等功能和工具

RAG :检索增强生成（Retrieval Augmented Generation）

一文搞懂大模型RAG应用（附实践案例） - 果壳PAI的文章 - 知乎
https://zhuanlan.zhihu.com/p/668082024

InternLM 模型部署

配置相关环境 -> 安装依赖 ->下载模型

在这里插入图片描述

LangChain 相关环境配置

在已完成 InternLM 的部署基础上，安装相关依赖包
使用 huggingface 官方提供的 huggingface-cli 命令行工具下载开源词向量模型 Sentence Transformer

下载 NLTK 相关资源

使用开源词向量模型构建开源词向量的时候，需要用到第三方库 nltk 的一些资源

下载本项目代码：将仓库 clone 到本地

知识库搭建：

数据收集 -> 数据预处理（提取满足条件即后缀名为 .md 或者 .txt 的文件）-> 加载数据到一个纯文本对象的列表 ->构建向量数据库(文本分块 -> 文本向量化 -> 将语料加载到指定路径下的向量数据库) -> InternLM 接入 LangChain -> 构建检索问答链（加载向量数据库 -> 实例化自定义 LLM 与 Prompt Template -> 构建检索问答链） -> 部署 Web Demo

数据收集：选择由上海人工智能实验室开源的一系列大模型工具开源仓库作为语料库来源，将相关远程开源仓库 Clone 到本地

为语料处理方便，我们将选用上述仓库中所有的 markdown、txt 文件作为示例语料库

在这里插入图片描述

InternLM 接入 LangChain

在这里插入图片描述

部署 Web Demo

在这里插入图片描述

运行结果：

在这里插入图片描述

在这里插入图片描述

菜菜荷包蛋

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
(202438)基于 InternLM 和 LangChain 搭建你的知识库

参考链接：https://github.com/InternLM/Tutorial/blob/main/langchain/readme.md。
复制链接

扫一扫

菜菜荷包蛋

博客等级

码龄3年

13
原创

45
点赞

75
收藏

38
粉丝

关注

私信

热门文章

分类专栏

小技能 1篇
MATLAB 1篇
python 1篇

最新评论

在VSCode中使用markdown标记语言并转为word
罗名扬: Pandoc导出时报错，是因为pandoc导出需要在原文件的开头添加导出路径，如下： --- # pandoc设置 output: word_document: path: C:\Users\Administrator\OneDrive\桌面\demo2.docx --- path就是你希望导出的文件路径，包含了文件名称，放在MD文件的最开头
编译qtcreator源码官方教程
CSDN-Ada助手: 恭喜您发布了第14篇博客！编译qtcreator源码官方教程内容实用且有价值，非常感谢您的分享。希望您能继续坚持创作，可以考虑分享一些关于qtcreator源码深入解析或者与其他开发工具的整合等更深入的内容，期待您的下一篇作品！谢谢！
(202438)基于 InternLM 和 LangChain 搭建你的知识库
CSDN-Ada助手: 恭喜您发布了第12篇博客！看到您探讨了基于 InternLM 和 LangChain 搭建知识库的主题，让我对这个领域的应用有了更深入的了解。希望您能继续保持创作的热情和耐心，不断探索和分享更多有趣的主题。或许下一步可以考虑深入研究这两个工具的优势和不足，并分享您的使用心得和改进建议，让读者能够更好地应用到实际项目中。期待您的下一篇作品！愿您在创作道路上不断进步，感谢您的分享！
(2024311)作业三：搭建一个自己的知识库
CSDN-Ada助手: 恭喜你成功完成了第13篇博客，“作业三：搭建一个自己的知识库”！持续创作是非常了不起的，你的努力和坚持让我们看到了你对知识的热爱和追求。接下来，我建议你可以继续深挖知识库的搭建方法和技巧，或者分享一些个人知识管理的心得体会，让更多的读者受益。希望你能继续保持创作的热情，不断提升自己！加油！
(2024314)轻松玩转书生·浦语大模型趣味作业
CSDN-Ada助手: 恭喜用户在博客上发布了第11篇文章！看到标题里的“轻松玩转书生·浦语大模型趣味作业”我不禁感到好奇和期待。希望你能继续保持创作的热情，给读者带来更多有趣、富有创意的内容。或许下一步可以考虑分享一些关于书生文化的历史故事或者与模型制作相关的技巧和心得，让读者在阅读的同时也能学到一些知识。期待你的下一篇文章，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

菜菜荷包蛋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。