RAG
文章平均质量分 70
信息检索增强,用于增强LLM的外部知识库信息检索能力
向日葵花籽儿
AI工程师:
NLP+AIGC+LLM+后端+DB(向量/非向量)
深度学习/算法优化/基础提升
Python/C++/(Java/JS/HTML)
近期专注内容:RAG | Langchain
展开
-
#RAG#llm时代-RAG各模块痛点总结及解决办法,强化rag认知
RAG相关目前遇到的痛点及解决流程原创 2024-01-31 17:56:35 · 672 阅读 · 0 评论 -
#LLM入门 | langchain | RAG # 4.2_文档加载
一旦文档被加载,它会被存储在名为pages的变量里。在第二部分,我们利用LangChain加载器从YouTube视频链接下载音频到本地,并用OpenAIWhisperPaser解析器将音频转换为文本。在page变量中,每一个元素都代表一个文档,它们的数据类型是langchain.schema.Document。首先,我们将构建一个 GenericLoader 实例来对 Youtube 视频的下载到本地并加载。接下来,我们将探讨如何加载网页链接,以GitHub上的Markdown文档为例进行学习。原创 2024-05-07 16:46:01 · 374 阅读 · 0 评论 -
#LLM入门 | langchain | RAG # 4.1 简介_使用 LangChain 访问个人数据
对于希望了解LangChain基础知识的读者,推荐学习《LangChain for LLM Application Development》部分。原创 2024-05-07 16:45:25 · 243 阅读 · 0 评论 -
【方便 | 重要】#LLM入门 | Agent | langchain | RAG # 3.7_代理Agent,使用langchain自带agent完成任务
在本节,我们将创建和使用自定义时间工具。LangChian tool 函数装饰器可以应用用于任何函数,将函数转化为LangChain 工具,使其成为代理可调用的工具。我们需要给函数加上非常详细的文档字符串, 使得代理知道在什么情况下、如何使用该函数/工具。比如下面的函数time,我们加上了详细的文档字符串。# 导入tool函数装饰器@tool"""返回今天的日期,用于任何需要知道今天日期的问题。输入应该总是一个空字符串,\这个函数将总是返回今天的日期,任何日期计算应该在这个函数之外进行。"""原创 2024-04-19 11:16:55 · 988 阅读 · 0 评论 -
#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9种PDF内容提取方式
【代码】#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9种PDF内容提取方式。原创 2024-04-17 10:22:48 · 418 阅读 · 0 评论 -
# RAG | Langchain # Langchain RAG:打造Markdown文件的结构化分割解决方案
【文章简介】在信息技术快速发展的今天,有效处理和分析文本数据变得尤为重要。Markdown文件因其简洁性和可读性,在知识共享和文档编写中扮演着关键角色。然而,传统的文本分割方法未能充分利用Markdown的结构化特性,导致信息提取和知识理解的效率受限。本文提出一种基于Langchain的结构化分割方法,通过MarkdownHeaderTextSplitter工具,按标题层级精确分割文档,保留关键的结构和上下文信息,特别适合报告和教程等结构化文档。原创 2024-04-15 17:37:56 · 6791 阅读 · 2 评论 -
#LangChain | RAG | LLM#LangChain LCEL_使用pipe链接runnables,获取LLM 推理结果
Runnable接口的一个关键优点是,任何两个可运行对象都可以“链接”在一起,形成序列。前一个可运行对象.invoke()调用的输出将作为输入传递给下一个可运行对象。这可以使用管道运算符 () 或更显式.pipe()的方法来完成,该方法执行相同的操作。生成的结果是 RunnableSequence 可运行的,这意味着它可以像任何其他可运行对象一样被调用、流式传输或管道传输。原创 2024-04-07 14:15:58 · 399 阅读 · 2 评论 -
#LangChain | RAG | LLM#LangChain LCEL_基本示例:提示 + 模型 + 输出解析器
LCEL 可以轻松地从基本组件构建复杂的链,并支持开箱即用的功能,例如流式处理、并行性和日志记录。原创 2024-04-07 11:19:03 · 862 阅读 · 0 评论 -
Azure OpenAI API配置(embedding为例)
【代码】Azure OpenAI API配置(embedding为例)原创 2024-03-20 11:09:43 · 255 阅读 · 0 评论 -
#VDB|RAG|AIGC#(含代码)向量检索工具FAISS的搭建和使用教程、经验分享
本文将依faiss使用全流程来教学gpu版的faiss如何使用。原创 2024-02-01 16:31:10 · 1077 阅读 · 0 评论 -
#RAG##AIGC#检索增强生成 (RAG) 基本介绍和入门实操示例
RAG 将信息检索组件与文本生成器模型相结合。RAG 可以进行微调,并且可以有效地修改其内部知识,而无需重新训练整个模型。原创 2024-01-15 15:21:47 · 1420 阅读 · 0 评论 -
#NLP|jieba分词词性对照
jieba词性对照表。原创 2024-01-30 17:13:35 · 474 阅读 · 0 评论 -
#NLP|Chunking|RAG|AIGC#文档拆分(Chunking)方法全流程总结
在构建RAG这类基于LLM的应用程序中,分块(chunking)是将大块文本分解成小段的过程。当我们使用LLM embedding内容时,这是一项必要的技术,可以帮助我们优化从向量数据库被召回的内容的准确性。在本文中,我们将探讨它是否以及如何帮助提高RAG应用程序的效率和准确性。在向量数据库(如:Pinecone)中索引的任何内容都需要首先Embedding。分块的主要原因是尽量减少我们Embedding内容的噪音。例如,在语义搜索中,我们索引一个文档语料库,每个文档包含一个特定主题的有价值的信息。转载 2024-01-23 09:51:49 · 495 阅读 · 0 评论 -
#AIGC##LLM##RAG# RAG:专补LLMs短板_减少LLM幻觉并多模态/RAG 技术最新进展
通过检索与生成目标相关的信息,来增强生成模型性能的技术。弥补LLMs“黑盒”导致的幻觉、信息来源单一、信息缺乏是时效性、模态单一、内容不透明不可追溯等短板。以便有效地控制成本并确保数据隐私的保护。原创 2024-01-15 10:22:16 · 1472 阅读 · 0 评论 -
#AIGC#text2video文生视频,开源DragNUWA:通过集成文本、图像和轨迹对视频生成进行细粒度控制
DragNUWA 使用户能够直接操纵图像中的背景或对象,模型将这些动作无缝地转换为相机运动或对象运动,生成相应的视频。以拖动(drag)的方式给出运动轨迹,DragNUWA 是一个集成了文本、图像和轨迹控制的系统,可以从语义、空间和时间的角度实现可控的视频生成。该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的。原创 2024-01-16 13:46:13 · 405 阅读 · 0 评论