自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HJ_blog

个人学习记录,不定期更新

  • 博客(148)
  • 收藏
  • 关注

原创 如何将传统的关键字搜索与现代向量搜索相结合,找到更相关的搜索结果

混合搜索是一种搜索技术,它结合了两种或两种以上的搜索算法,以提高搜索结果的相关性。虽然没有明确定义是哪种算法的组合,但混合搜索最常见的是指传统的基于关键字的搜索和现代的向量搜索的组合。传统上,基于关键词的搜索是搜索引擎的不二选择。但随着机器学习(ML)算法的出现,向量嵌入带来了一种新的搜索技术——向量或语义搜索——使我们能够对数据进行语义搜索。

2024-02-27 14:18:02 1089

原创 检索增强生成(RAG):从理论到 LangChain 实现

检索增强生成(RAG)的概念是为 LLM 提供来自外部知识源的额外信息。这使他们能够生成更准确、更符合上下文的答案,同时减少幻觉。本文介绍了 2020 年发表的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出的 RAG 概念。在介绍了这一概念背后的一些理论(包括动机和问题解决方案)之后,本文转换了其在 Python 中的实现。

2024-02-26 14:00:02 709

原创 改进RAG:自查询检索

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-02-26 13:58:55 708

原创 检索增强生成(RAG)-重新排序方法

如图 1 所示,重新排序的任务就像一个智能过滤器。当检索器从索引集合中检索出多个上下文时,这些上下文可能与用户的查询具有不同的相关性。有些上下文可能非常相关(图 1 中红色方框中突出显示的内容),而其他上下文可能只是略有相关甚至不相关(图 1 中绿色和蓝色方框中突出显示的内容)。重新排序的任务是评估这些上下文的相关性,并优先选择最有可能提供准确和相关答案的上下文。这样,LLM 就能在生成答案时优先考虑这些排名靠前的上下文,从而提高答案的准确性和质量。

2024-02-25 08:53:04 1273

原创 提高自定义词汇的 RAG 性能

检索增强生成(RAG)由检索、增强和生成三部分组成。首先,将用户问题转换为搜索查询。其次,通过应用程序接口从各种来源获取相关文本数据。第三,将相关文本数据与用户问题一起插入 LLM(大语言模型)提示。第四,LLM 根据相关文本数据生成对用户问题的回复。最后,将答案与相关数据源一起显示给用户,这样用户就可以轻松验证聊天机器人的答案。这一过程具有透明度和可扩展性。最后一步是显示聊天机器人回答问题的理由,这对于提高透明度至关重要。

2024-02-25 08:51:52 656

原创 检索增强生成(RAG)——提示工程方法

在检索增强生成(RAG)过程中,提示工程也是一个不可忽略的部分。提示工程可以降低 RAG 应用出现的幻觉,提高 RAG 应用回答的质量。下面简单介绍一些关于提示工程的论文。

2024-02-24 10:04:13 1073

原创 可视化 RAG 数据 - 用于检索增强生成的 EDA

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-02-24 10:02:41 838

原创 为什么先进的 RAG 方法对 AI 的未来至关重要?

检索增强生成(RAG)是生成式人工智能领域的一大进步,它将高效的数据检索与大型语言模型的强大功能结合在一起。RAG 的核心工作是利用向量搜索挖掘相关的现有数据,将这些检索到的信息与用户的查询结合起来,然后通过类似 ChatGPT 的大型语言模型进行处理。这种 RAG 方法可确保生成的响应不仅精确,而且还能反映当前的信息,从而大大减少输出中的不准确或 “幻觉”。然而,随着人工智能应用领域的不断扩大,对 RAG 提出的要求也变得更加复杂多样。

2024-02-23 08:57:28 1335

原创 RAG 语义分块实践

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原文标题:Semantic chunking in practice原文地址:https://medium.com/@boudhayan-dev/semantic-chunking-in-practice-23a8bc33d56d。

2024-02-23 08:56:22 673

原创 Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 视频片段

种类型的视觉数据转换为统一表示的方法,以实现大规模生成模型的训练,以及 (2) 对 Sora 的能力和局限性进行定性评估。Sora 是一种视觉数据的通用模型——它能够生成持续时间、宽高比和分辨率多样化的视频和图像,最长可达一分钟的高清视频。我们将 Sora 与我们的模型的一个版本进行了比较,这个版本模型将所有训练视频裁剪为正方形,这在训练生成模型时是常见做法。我们在我们的登陆页面上列举了模型的其他常见失败模式——例如,在长时间样本中发展的不一致性或对象的突然出现。我们训练了一个降低视觉数据维度的网络。

2024-02-23 08:54:15 1099

原创 释放语义分块的力量:LlamaIndex之旅

在不断扩展的语言模型领域中,最大化应用潜力通常需要将大块文本分解为更易消化的部分。这个被称为语义分块的过程,在增强ChatGPT等模型性能和促进应用的长期记忆方面发挥了关键作用。语义分块也称为分割,是指将大量文本数据分解成更小、更易于处理的片段。在多模态环境中,这个概念不仅限于文本,还包括图像。在本教程中,我们将深入研究文本分割的 5 个层次,探索各种策略,包括与 LlamaIndex 的有趣整合。

2024-02-21 11:47:43 131

原创 实现RAG管道中的上下文压缩和过滤

检索面临的一个挑战是,我们通常不知道在将数据输入系统时,我们的文档存储系统会面临哪些具体查询。这意味着,与查询最相关的信息可能会被埋藏在包含大量无关文本的文档中。在应用程序中传递完整的文档可能会导致更昂贵的 LLM 调用和更差的响应。因此,"上下文压缩 "的概念就派上了用场。这个想法是:-我们有某种基础检索器,可以检索到大量不同的信息。然后,我们将这些信息添加到文件压缩器中。压缩器对这些信息进行过滤和处理,只提取对回答问题有用的信息。要使用上下文压缩检索器,您需要:一个基础检索器文件压缩器。

2024-02-21 11:46:09 264

原创 提高RAG性能的高级查询转换

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-02-20 09:37:38 36

原创 使用主动检索增强生成 FLARE 实现更优越的 RAG

FLARE 是前瞻性主动检索增强生成(Forward-Looking Active Retrieval Augmented Generation)的缩写。这是一种补充 LLM 的方法,在模型生成内容的过程中主动纳入外部信息。这一过程大大降低了产生幻觉的风险,确保内容不断得到外部数据的检查和支持。传统的检索-增强生成在传统的检索-增强生成模型中,通常的方法是在生成过程开始时执行一次检索。该方法涉及使用初始查询,例如“总结 Narendra Modi 的维基百科页面”,并根据此查询检索相关文档。

2024-02-20 09:35:54 358

原创 检索增强生成中的创新

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-22 20:15:57 138

原创 构建开源的多模态 RAG 系统

检索增强生成(RAG):增强AI的理解和产出在人工智能领域,“检索增强生成”(RAG)作为一种变革性技术脱颖而出,完善了大型语言模型(LLM)的功能。从本质上讲,RAG 允许模型从外部来源动态检索实时信息,从而增强了人工智能响应的特异性。大型语言模型(如 GPT-3)在生成类人语言方面表现出色,但在提供最新信息或特定领域信息方面存在局限性。RAG 通过整合检索机制来解决这一问题,该机制可从外部知识库中提取相关事实,确保回答既语言合理,又事实准确。

2024-01-22 20:13:28 241

原创 基于LLM+RAG的问答

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-21 20:29:10 227

原创 在不同的 RAG 阶段注入知识图谱

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原文标题:Injecting Knowledge Graphs in different RAG stages原文地址:https://medium.com/enterprise-rag/injecting-knowledge-graphs-in-different-rag-stages-a3cd1221f57b在本文中,我想准确地介绍知识图谱 (KG) 在 RAG 中的应用。

2024-01-21 20:25:55 197

原创 ImportError: cannot import name ‘Doc‘ from ‘typing_extensions‘

在训练大模型时候出现:ImportError: cannot import name ‘Doc’ from ‘typing_extensions’。

2024-01-14 00:19:24 1238 3

原创 如何使用提示压缩来削减 RAG 80% 成本

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原文标题:How to Cut RAG Costs by 80% Using Prompt Compression原文地址:https://medium.com/towards-data-science/how-to-cut-rag-costs-by-80-using-prompt-compression-877a07c6bedb。

2024-01-12 09:06:08 227

原创 AI RAG应用的多种文档分块代码

现有文档分块方法并不完美,还是基于分隔符,token限制,token重叠数等等。即使如此,在不同的应用场景和数据集下,应选择合适的文档分块方法,尽可能的提升RAG应用的效果。探索如何从语义层面进行文本分块还是一个很有潜力的研究方向。

2024-01-12 09:03:48 144

原创 指导AI进行推理:提示工程如何弥补RAG系统中的差距

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-11 22:58:40 150

原创 Linxu每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2024-01-11 22:55:49 52

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2024-01-07 09:52:40 916

原创 评估检索增强生成(RAG)的三步法

自动合成数据集,包括(问题,答案,上下文)RAG运行自动评估,指标(检索分数,生成分数)需专业人员创建评估数据集需要使用大模型进行RAG评估,并人工进行检测RAG的每个参数、每个环节需要不断的调整,适配已有的场景和数据集。

2024-01-07 09:50:31 942

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2024-01-05 22:32:21 905

原创 从查询到高质量回答:发挥 RAG 和 Rerankers 的潜力

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-05 22:31:20 1199

原创 RAG 文档分块方法

RAG第一步需要对文档进行分快,以便更好的进行检索,现有的分块方法基于分隔符、token限制、token重叠数等等,现有突出的文档分块方法有哪些呢?含有各个分块方法的代码。

2024-01-04 22:31:46 640

原创 基于LLM+RAG的问答

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-04 12:12:38 1122

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2024-01-02 22:23:45 855

原创 利用 OpenAI GPT、LangChain 和 Streamlit 创建自己的 PDF 问答系统

streamlit可视化PyPDF2.PdfReader读取PDFlangchain.text_splitter.RecursiveCharacterTextSplitter 分块langchain.embeddings.openai.OpenAIEmbeddings 向量嵌入Faiss检索openai 调用模型langchain.chains.question_answering.load_qa_chain 问答。

2024-01-02 22:22:42 1165

原创 LLM应用的分块策略

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。

2024-01-01 22:09:40 933

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2024-01-01 22:06:59 769

原创 利用 OpenAI API 进行文本聚类和标记

文本嵌入openai的模型K-mean聚类Silhouette Score指标t-SNE可视化聚类主题标签openai结合langchain查看主题是否可行。

2023-12-25 15:09:27 967

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2023-12-25 15:04:14 904

原创 Openai的openai新版本调用方式

最近大家有没有发现Openai的openai已经更新到1.6.1了,而且API的调用方式发生了巨大的变化,下面来看看openai新的调用方式吧。

2023-12-24 22:35:31 1206

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2023-12-24 22:33:43 888

原创 Linux每日智囊

每日分享三个Linux命令,悄悄培养读者的Linux技能。

2023-12-23 23:49:10 741

原创 NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported.

datasets版本的问题。

2023-12-22 16:18:54 588

原创 conda安装慢:\ WARNING conda.models.version:get_matcher(528): Using .* with relational operator is super

conda安装pytorch时特别慢,出现。

2023-12-22 16:05:54 1916

山东省2001-2022年逐月降雨数据

山东省2001-2022年逐月降雨数据,可以通过使用小波分析来分析山东省的降雨周期性。

2023-12-12

python实现数据获取代码

本代码实现对链家数据的爬取,具备详细的注解,用户可自行修改网址,爬取需要的数据,简单方便,可以高效解决数据难以获取难题,节省时间。

2023-01-08

python中append的用法

python中append的用法

2022-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除