hj_caas
目前研究生在读,主要研究方向是自然语言处理领域,研究知识图谱、方面级情感分析等。目前熟悉python爬虫、机器学习、深度学习、NLP等相关技术,由于本人比较懒散,不会定期更新,后期会慢慢充实相关专题。
展开
-
释放语义分块的力量:LlamaIndex之旅
在不断扩展的语言模型领域中,最大化应用潜力通常需要将大块文本分解为更易消化的部分。这个被称为语义分块的过程,在增强ChatGPT等模型性能和促进应用的长期记忆方面发挥了关键作用。语义分块也称为分割,是指将大量文本数据分解成更小、更易于处理的片段。在多模态环境中,这个概念不仅限于文本,还包括图像。在本教程中,我们将深入研究文本分割的 5 个层次,探索各种策略,包括与 LlamaIndex 的有趣整合。原创 2024-02-21 11:47:43 · 213 阅读 · 0 评论 -
实现RAG管道中的上下文压缩和过滤
检索面临的一个挑战是,我们通常不知道在将数据输入系统时,我们的文档存储系统会面临哪些具体查询。这意味着,与查询最相关的信息可能会被埋藏在包含大量无关文本的文档中。在应用程序中传递完整的文档可能会导致更昂贵的 LLM 调用和更差的响应。因此,"上下文压缩 "的概念就派上了用场。这个想法是:-我们有某种基础检索器,可以检索到大量不同的信息。然后,我们将这些信息添加到文件压缩器中。压缩器对这些信息进行过滤和处理,只提取对回答问题有用的信息。要使用上下文压缩检索器,您需要:一个基础检索器文件压缩器。原创 2024-02-21 11:46:09 · 300 阅读 · 0 评论 -
提高RAG性能的高级查询转换
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-02-20 09:37:38 · 53 阅读 · 0 评论 -
使用主动检索增强生成 FLARE 实现更优越的 RAG
FLARE 是前瞻性主动检索增强生成(Forward-Looking Active Retrieval Augmented Generation)的缩写。这是一种补充 LLM 的方法,在模型生成内容的过程中主动纳入外部信息。这一过程大大降低了产生幻觉的风险,确保内容不断得到外部数据的检查和支持。传统的检索-增强生成在传统的检索-增强生成模型中,通常的方法是在生成过程开始时执行一次检索。该方法涉及使用初始查询,例如“总结 Narendra Modi 的维基百科页面”,并根据此查询检索相关文档。原创 2024-02-20 09:35:54 · 409 阅读 · 0 评论 -
检索增强生成中的创新
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-22 20:15:57 · 156 阅读 · 0 评论 -
构建开源的多模态 RAG 系统
检索增强生成(RAG):增强AI的理解和产出在人工智能领域,“检索增强生成”(RAG)作为一种变革性技术脱颖而出,完善了大型语言模型(LLM)的功能。从本质上讲,RAG 允许模型从外部来源动态检索实时信息,从而增强了人工智能响应的特异性。大型语言模型(如 GPT-3)在生成类人语言方面表现出色,但在提供最新信息或特定领域信息方面存在局限性。RAG 通过整合检索机制来解决这一问题,该机制可从外部知识库中提取相关事实,确保回答既语言合理,又事实准确。原创 2024-01-22 20:13:28 · 323 阅读 · 0 评论 -
基于LLM+RAG的问答
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-21 20:29:10 · 261 阅读 · 0 评论 -
在不同的 RAG 阶段注入知识图谱
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原文标题:Injecting Knowledge Graphs in different RAG stages原文地址:https://medium.com/enterprise-rag/injecting-knowledge-graphs-in-different-rag-stages-a3cd1221f57b在本文中,我想准确地介绍知识图谱 (KG) 在 RAG 中的应用。原创 2024-01-21 20:25:55 · 272 阅读 · 0 评论 -
如何使用提示压缩来削减 RAG 80% 成本
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原文标题:How to Cut RAG Costs by 80% Using Prompt Compression原文地址:https://medium.com/towards-data-science/how-to-cut-rag-costs-by-80-using-prompt-compression-877a07c6bedb。原创 2024-01-12 09:06:08 · 260 阅读 · 0 评论 -
指导AI进行推理:提示工程如何弥补RAG系统中的差距
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-11 22:58:40 · 162 阅读 · 0 评论 -
评估检索增强生成(RAG)的三步法
自动合成数据集,包括(问题,答案,上下文)RAG运行自动评估,指标(检索分数,生成分数)需专业人员创建评估数据集需要使用大模型进行RAG评估,并人工进行检测RAG的每个参数、每个环节需要不断的调整,适配已有的场景和数据集。原创 2024-01-07 09:50:31 · 967 阅读 · 0 评论 -
从查询到高质量回答:发挥 RAG 和 Rerankers 的潜力
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-05 22:31:20 · 1210 阅读 · 0 评论 -
基于LLM+RAG的问答
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-04 12:12:38 · 1170 阅读 · 0 评论 -
利用 OpenAI GPT、LangChain 和 Streamlit 创建自己的 PDF 问答系统
streamlit可视化PyPDF2.PdfReader读取PDFlangchain.text_splitter.RecursiveCharacterTextSplitter 分块langchain.embeddings.openai.OpenAIEmbeddings 向量嵌入Faiss检索openai 调用模型langchain.chains.question_answering.load_qa_chain 问答。原创 2024-01-02 22:22:42 · 1199 阅读 · 0 评论 -
LLM应用的分块策略
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。原创 2024-01-01 22:09:40 · 949 阅读 · 0 评论 -
利用 OpenAI API 进行文本聚类和标记
文本嵌入openai的模型K-mean聚类Silhouette Score指标t-SNE可视化聚类主题标签openai结合langchain查看主题是否可行。原创 2023-12-25 15:09:27 · 985 阅读 · 0 评论