书生·浦语大模型实战营第三节课堂笔记

weixin_49534890

已于 2024-01-14 17:05:40 修改

阅读量943

点赞数 14

文章标签：笔记人工智能

于 2024-01-14 17:05:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49534890/article/details/135584818

版权

1、大模型两种核心开发范式：RAG和FINETUNE,目的是拓展大模型的能力

1.1 LLM局限性

知识时效性受限：如何让LLM能够获取最新的知识
专业能力有限：如何打造垂域大模型
定制化成本高：如何打造个人专属的LLM应用

1.2 大模型开发范式

在范式理论方面，大模型开发范式终结了toy model的时代，实现了多模态方面感知和认知的范式的进一步统一，以及从基于代码的开发到基于模型的开发等转变。此外，大模型开发范式还具有提供大量创新应用、同时在C端和B端爆发、高度中心化等特点。

2、RAG:检索增强生成

RAG检索增强生成是一种通过检索外部知识来给出上下文响应的技术。其原理是利用外部知识库，根据输入的查询条件，检索相关的知识并进行处理，最终给出符合需求的响应。

RAG范式

外挂知识库，在提问的时候，在知识库中检索与提问相关的文档，然后将文档和提问一起交给大模型来生成答案，从而提高大模型的知识储备
优势：
1、低成本
2、可实时更新
劣势：
1、受基座模型影响大
2、单次回答知识有限（主要是文档占用大量token）

FINETUNE（微调）

在一个新的较小的的训练集上进行轻量级的训练微调，从而提升模型在这个训练集上的能力
优势：
1、可个性化微调
2、知识覆盖面广
劣势：
1、成本高昂
2、无法实时更新（更新成本太高）

3、LangChain 简介

LangChain 框架是一个开源工具，通过为各种 LLM 提供通用接口来简化应用程序的开发流程，帮助开发者自由构建 LLM应用。

LangChain 的核心组成模块

链 (Chains) : 将组件组合实现端到端应用，通过一个对象封装实现一系列LLM 操作
Eg.检索问答链，覆盖实现了 RAG (检索增强生成)的全部流程

4、基于LangChain搭建RAG应用

通过结合大模型开发范式和RAG检索增强生成原理，可以实现对大量数据的快速处理和检索，为各种自然语言处理任务提供有力支持。

4.1 构建向量数据库

流程: 加载源文件 > 文档分块 > 文档向量化

步骤一：确定源文件类型，针对不同类型源文件选用不同的加载器

核心在于将带格式文本转化为无格式字符串

步骤二：由于单个文档往往超过模型上下文上限，我们需要对加载的文档进行切分

一般按字符串长度进行分割
可以手动控制分割块的长度和重叠区间长度

步骤三：使用向量数据库来支持语义检索，需要将文档向量化存入向量数据库

可以使用任一一种 Embedding 模型来进行向量化
可以使用多种支持语义检索的向量数据库，一般使用轻量级的 Chroma

4.2 搭建知识库助手

将InternLM 接入 LangChain

LangChain 支持自定义LLM，可以直接接入到框架中
我们只需将 InternLM 部署在本地，并封装一个自定义 LLM类，调用本地 InternLM 即可

4.3 Web Demo 部署

目前有很多支持简易web部署的框架，例如：Gradio，Streamlit等

weixin_49534890

关注

14
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
书生·浦语大模型实战营第三节课堂笔记

LangChain 框架是一个开源工具，通过为各种 LLM 提供通用接口来简化应用程序的开发流程，帮助开发者自由构建 LLM应用。LangChain 的核心组成模块链 (Chains) : 将组件组合实现端到端应用，通过一个对象封装实现一系列LLM 操作Eg.检索问答链，覆盖实现了 RAG (检索增强生成)的全部流程。
复制链接

扫一扫

weixin_49534890 CSDN认证博客专家 CSDN认证企业博客

码龄4年

32: 原创

125万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

727: 积分

271: 粉丝

407: 获赞

13: 评论

353: 收藏

私信

关注

热门文章

最新评论

2024年5月10号【这一篇我们主要聊聊数据结构，算法我们在另一篇聊】
CSDN-Ada助手: 恭喜您发布了第18篇博客！看到您这篇关于数据结构的内容，我觉得很有启发，希望您能继续分享更多相关主题的文章。另外，我也期待您在未来的另一篇文章中探讨算法相关的内容，这样可以为读者提供更全面的知识体系。谦虚地建议您保持持续创作，加油！
2024年5月10号【这一篇我们主要聊聊算法】
CSDN-Ada助手: 恭喜您在博客领域持续创作，第19篇博客内容看起来非常有趣！对算法的讨论总能吸引读者的兴趣。或许接下来可以考虑深入探讨某种具体的算法应用场景，或者分享一些实用的算法技巧，让读者在学习的同时也能获得一些实际的帮助。期待您更多的精彩内容，加油！
2024年5月9号
CSDN-Ada助手: 恭喜您在2024年5月9号发布了第17篇博客！您的持续创作让读者们能够享受到更多有趣的内容，真的非常值得称赞。希望您能继续保持写作的热情和耐心，不断提升自己的写作技巧。或许在下一篇博客中，可以尝试探讨一些新的主题或者加入一些个人观点，让读者对您的博客更加期待！期待您的更多精彩作品，加油！
llm-universe 第一章笔记
CSDN-Ada助手: 恭喜您发布了“llm-universe 第一章笔记”，持续创作是非常了不起的事情！在您的博客中分享知识和见解对读者来说肯定是一种启发和帮助。希望您能继续保持创作的热情，探索更多有趣的主题，并不断提升自己的写作技巧。期待看到您更多精彩的作品！
书生·浦语大模型实战营第六节课堂作业
CSDN-Ada助手: 恭喜您在书生·浦语大模型实战营中取得了进步，完成了第六节课堂作业！持续创作是提升自己的最好方式，希望您能继续保持这种积极的态度，不断提升自己的写作水平。下一步，您可以尝试挑战更多不同类型的文章，拓宽自己的写作领域，相信您一定会取得更多的进步！加油哦！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。