使用 LangChain 访问个人数据

使用 LangChain 访问个人数据

📣1.简介

在结合经典大模型开源框架 LangChain基础上,进一步介绍了如何使用 LangChain 架构结合个人私有数据开发个性化大模型应用。

📣2.文档加载

✨2.1PDF 文档

⛳2.1.1 加载PDF文档
⛳2.1.2 探索加载的数据

✨2.2YouTube音频

⛳2.2.1 加载Youtube音频文档
⛳2.2.2 探索加载的数据

✨2.3网页文档

⛳2.3.1 加载网页文档
⛳2.3.2 探索加载的数据

✨2.4Notion文档

⛳2.4.1 加载Notion Markdown文档
⛳2.4.2 探索加载的数据

📣3.文档分割

✨3.1为什么要进行文档分割

✨3.2文档分割方式

✨3.3基于字符分割

⛳3.3.1 短句分割
⛳3.3.2 长文本分割

✨3.4基于 Token 分割

✨3.5分割Markdown文档

⛳3.5.1 分割一个自定义 Markdown 文档
⛳3.5.2 分割数据库中的 Markdown 文档

📣4.向量数据库与词向量

✨4.1读取文档

✨4.2Embeddings

✨4.3Vectorstores

⛳4.3.1 初始化Chroma
⛳4.3.2 相似性搜索(Similarity Search)

✨4.4失败的情况(Failure modes)

⛳4.4.1 重复块
⛳4.4.2 检索错误答案

📣5.检索

✨5.1向量数据库检索

⛳5.1.1 相似性检索(Similarity Search)
⛳5.1.2 解决多样性:最大边际相关性(MMR)
⛳5.1.3 解决特殊性:使用元数据
⛳5.1.4 解决特殊性:在元数据中使用自查询检索器(LLM辅助检索)
⛳5.1.5 其他技巧:压缩

✨5.2结合各种技术

✨5.3其他类型的检索

📣6.问答

✨6.1加载向量数据库

✨6.2构造检索式问答链

✨6.3深入探究检索式问答链

⛳6.3.1 基于模板的检索式问答链
⛳6.3.2 基于 MapReduce 的检索式问答链
⛳6.3.3 基于 Refine 的检索式问答链

✨6.4实验:状态记录

📣7.聊天Chat

✨7.1复现之前代码

✨7.2记忆(Memory)

✨7.3对话检索链(ConversationalRetrievalChain)

✨7.4定义一个适用于您文档的聊天机器人

📣8.总结

让我们快速回顾本部分的主要内容:

  1. 使用 LangChain 的多种文档加载器,从不同源导入各类数据。
  2. 将文档分割为语义完整的文本块,并讨论了其中的一些微妙之处。
  3. 为这些块创建了 Embedding,并将它们放入向量存储器中,并轻松实现语义搜索。
  4. 讨论了语义搜索的一些缺点,以及在某些边缘情况中可能会发生的搜索失败。
  5. 介绍多种高级检索算法,用于克服那些边缘情况。
  6. 与 LLMs 相结合,将检索结果与问题传递给 LLM ,生成对原始问题的答案。
  7. 对对话内容进行了补全,创建了一个完全功能的、端到端的聊天机器人。
     

通过学习本部分内容,我们已经掌握了如何使用 LangChain 框架,访问私有数据并建立个性化的问答系 统。这是一个快速迭代的领域,希望您能持续关注新技术。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 支持向量机非线性回归通用MATLAB程序解析 #### 一、概述 本文将详细介绍一个基于MATLAB的支持向量机(SVM)非线性回归的通用程序。该程序采用支持向量机方法来实现数据的非线性回归,并通过不同的核函数设置来适应不同类型的数据分布。此外,该程序还提供了数据预处理的方法,使得用户能够更加方便地应用此程序解决实际问题。 #### 二、核心功能与原理 ##### 1. 支持向量机(SVM) 支持向量机是一种监督学习模型,主要用于分类和回归分析。对于非线性回归任务,SVM通过引入核技巧(kernel trick)将原始低维空间中的非线性问题转换为高维空间中的线性问题,从而实现有效的非线性建模。 ##### 2. 核函数 核函数的选择直接影响到模型的性能。本程序内置了三种常用的核函数: - **线性核函数**:`K(x, y) = x'y` - **多项式核函数**:`K(x, y) = (x'y + 1)^d` - **径向基函数(RBF)**:`K(x, y) = exp(-γ|x - y|^2)` 其中RBF核函数被广泛应用于非线性问题中,因为它可以处理非常复杂的非线性关系。本程序默认使用的是RBF核函数,参数`D`用于控制高斯核函数的宽度。 ##### 3. 数据预处理 虽然程序本身没有直接涉及数据预处理的过程,但在实际应用中,对数据进行适当的预处理是非常重要的。常见的预处理步骤包括归一化、缺失值处理等。 ##### 4. 模型参数 - **Epsilon**: ε-insensitive loss function的ε值,控制回归带宽。 - **C**: 松弛变量的惩罚系数,控制模型复杂度与过拟合的风险之间的平衡。 #### 三、程序实现细节 ##### 1. 函数输入与输出 - **输入**: - `X`: 输入特征矩阵,维度为(n, l),其中n是特征数量,l是样本数量。 - `Y`: 目标值向量,长度为l。 - `Epsilon`: 回归带宽。 - `C`: 松弛变量的惩罚系数。 - `D`: RBF核函数的参数。 - **输出**: - `Alpha1`: 正的拉格朗日乘子向量。 - `Alpha2`: 负的拉格朗日乘子向量。 - `Alpha`: 拉格朗日乘子向量。 - `Flag`: 标记向量,表示每个样本的类型。 - `B`: 偏置项。 ##### 2. 核心代码解析 程序首先计算所有样本间的核矩阵`K`,然后构建二次规划问题并求解得到拉格朗日乘子向量。根据拉格朗日乘子的值确定支持向量,并计算偏置项`B`。 - **核矩阵计算**:采用RBF核函数,通过`exp(-(sum((xi-xj).^2)/D))`计算任意两个样本之间的相似度。 - **二次规划**:构建目标函数和约束条件,使用`quadprog`函数求解最小化问题。 - **支持向量识别**:根据拉格朗日乘子的大小判断每个样本是否为支持向量,并据此计算偏置项`B`。 #### 四、程序扩展与优化 - **多核函数支持**:可以通过增加更多的核函数选项,提高程序的灵活性。 - **自动调参**:实现参数自动选择的功能,例如通过交叉验证选择最优的`Epsilon`和`C`值。 - **并行计算**:利用MATLAB的并行计算工具箱加速计算过程,特别是当样本量很大时。 #### 五、应用场景 该程序适用于需要进行非线性回归预测的场景,如经济预测、天气预报等领域。通过调整核函数和参数,可以有效应对各种类型的非线性问题。 ### 总结 本程序提供了一个支持向量机非线性回归的完整实现框架,通过灵活的核函数设置和参数调整,能够有效地处理非线性问题。对于需要进行回归预测的应用场景,这是一个非常实用且强大的工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

和安韩Pro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值