RAG回答准确率暴涨300%!用Coze工作流进行数据结构化(附完整提示词)

1. 前言

在生成式人工智能(Generative AI)快速发展的当下,大语言模型(LLMs)的幻觉问题始终是制约其落地应用的关键瓶颈。检索增强生成(RAG)技术通过引入外部知识库,将动态检索与生成能力结合,为解决这一难题提供了重要思路。然而,RAG系统的核心性能——数据召回率,高度依赖于底层数据的质量与组织形式。尤其是一些领域文献,原始数据常以非结构化形式(如PDF论文、扫描文档、图像表格)存在,且包含冗余、噪声和碎片化信息。若未经过深度清洗与结构化处理,检索系统可能陷入“垃圾进,垃圾出”的困境,导致语义理解偏差、关键信息遗漏甚至误导性结果生成。

本文以学术文献PDF解析为例,基于RAGFlow框架完整演示从原始文档清洗(MinerU工具)、结构化分块(DeepSeek+Coze标注)到知识库构建的全流程,并通过对比实验验证结构化处理对召回率的提升效果,话不多说,正文开始~

温馨提示:本文RAG框架为RAGFlow,对RAGFlow不了解的读者可以移步:

基于RAGFlow本地部署DeepSeek-R1大模型与知识库:从配置到应用的全流程解析_rowflow 本地部署-CSDN博客​blog.csdn.net/c18213590220/article/details/146280673?spm=1001.2014.3001.5501​编辑

2. 数据结构化实战

2.1. 什么是RAG召回率?

在RAG(检索增强生成)模型中,召回率是衡量系统从知识库中检索到与用户查询相关信息的能力。高召回率意味着系统能够准确找到更多相关的文档,为生成模型提供更丰富的上下文,从而提高生成内容的质量。

召回率的计算公式为:

其中,相关文档的数量指知识库中所有真正相关的信息,成功检索到的相关文档数量是系统检索到并与问题相关的文档数量,高召回率确保生成模型获得更多有用的信息,从而提升回答的准确性。数据的结构化和高效的检索机制是提高召回率的关键因素。

2.2. 为什么要进行数据结构化?

在信息检索与知识管理系统中,数据的结构化处理对于提升检索效率、优化存储管理以及增强信息关联性具有重要作用。特别是在基于检索增强生成(Retrieval-Augmented Generation, RAG)的方法中,底层数据的组织方式直接影响系统的召回率和生成质量,很多初学者在第一次接触RAG时都会直接把原始数据丢进RAGFlow框架进行分块,结果就是RAG回答效果很差,要想提升RAG的回答效果,数据预处理是很重要的,本节就以实际场景为例,一步一步教会大家如何进行数据结构化。

最近,毕业季到来,同学们写论文时都要大量阅读领域文献,以前我上学那会我记得都是要花一个月左右时间来研读参考文献然后归纳总结,现在我们可以通过将领域文献进行结构化之后导入知识库,让AI辅助我们研读领域文献的内容,以下是我随便找的几篇文献:

要把上述领域文献投喂给RAG,并且具有较高的召回率,我们需要经历几个步骤:

  1. 文献清洗与去噪
    清洗是数据结构化的第一步。文献中的噪声,如无关的图片、广告、版权声明、重复内容等,需要被去除。通过自然语言处理(NLP)技术,去除文本中的干扰信息,保留核心内容,提高数据的质量。
  2. 文献数据标注与分块
    在清洗后的文献数据中,需要根据主题、章节、关键术语等信息进行标注。这一过程能够将文献划分为若干个有意义的部分(如段落、节、图表等),并为每个部分赋予标签。通过标注和分块,信息之间的关系可以被更好地组织和存储。
  3. 知识库构建与索引
    将结构化的数据导入RAGFlow的知识库中,并建立索引。RAGFlow支持多种嵌入模型,将文本转换为向量,捕捉语义信息,常用于文本相似度计算和检索。将生成的文本块向量存储在向量数据库中,并建立索引,以便快速检索。
  4. 检索与生成优化
    利用RAGFlow的相似性检索功能,使用近似最近邻搜索算法,在向量数据库中查找与用户问题向量最相似的文本块。系统从检索到的文本块中提取关键信息,并与用户问题融合,构建增强上下文。将融合后的上下文输入大型语言模型(LLM),生成准确且有据可依的回答。

2.3. PDF文件清洗:MinerU

虽然RAGFlow也可以解析PDF,但是我发现RAGFlow在处理复杂布局和多模态内容的PDF文档时,在解析精度和内容提取方面还是存在一定的局限性,于是我去网上找了相关工具,发现了一个叫MinerU(https://github.com/opendatalab/MinerU)的开源数据提取工具,在处理PDF文档时,MinerU相比RAGFlow自带的文件清洗功能有以下优势:

  1. 多模态内容解析能力
    MinerU采用先进的文档解析技术,能够准确识别和提取PDF中的文本、图片、表格等多种元素。这种多模态解析能力确保了文档内容的完整性和准确性,为后续的数据处理和分析奠定了坚实基础。
  2. 智能化的内容清洗与去噪
    在文档清洗过程中,MinerU能够自动识别并剔除广告、版权声明、无关图片等干扰信息。这种智能化的清洗功能有效提升了数据质量,确保了知识库中信息的相关性和可靠性。
  3. 灵活的格式转换与导出功能
    MinerU支持将解析后的文档内容导出为Markdown等多种格式,方便用户查看和编辑。这种格式转换功能提高了文档处理的灵活性,满足了不同用户的需求。

MinerU可以本地部署,如下图所示:

也可以直接用网页版本https://huggingface.co/spaces/opendatalab/MinerU我用的就是网页版:

将PDF上传解析,解析成功后可将结果下载到本地:

打开.md文件,可以看出我们的PDF文件已经被很好地解析了:

2.4. 基于DeepSeek+Coze进行数据标注和分块

2.3小节我们完成了PDF文档初步清洗,接下来还要剔除文档里面的图片(没有文字的),给文档进行分块与标注,这种长文本(领域文献)的分块就按照大章节来分块就行,基本一个章节就是一块完整内容。打开经过MinerU清洗后的.md文件:

在上图中#就代表一级标题,也就是这篇文献的标题,##代表二级标题,我想以二级标题分块,每个分块后面自动追加分块标识符+###,每个分块打上标签,标签为章节和正文,类似下面的效果:

[文献的标题]章节:章节题目
[文献的标题]正文:章节下面的正文

+###

上面描述的数据分块和标准可以用代码来做,也可以用Coze来做,为了让对代码不熟悉的读者也可以进行RAG数据结构化,我在Coze新建了一个工作流用于进行数据结构化:

下面我来依次讲解一下每个节点:

开始:起始节点,用于传入MinerU清洗过后的文件(.md文件)。

read:帮助用户阅读文档内容,输入文档链接,返回文档内容,目前支持html、xml、doc、docx、txt、PDF、csv、xlsx格式。(由于它不支持.md文档,需要把MinerU清洗过后的.md文件改为.txt后缀)

大模型:这个节点主要是用来给文件内容打标签和分块的,理想的结果是每个大章节后面加上分块标识+###作为分块标志,每个分块里面需要有章节标签来标准章节标题,有正文标签标注正文,提示词我是让DeepSeek辅助我写的,大模型我选的kimi(长文本):

提示词:

# 角色
你是一位经验丰富的数据清洗专家,专注于对用户输入的数据转换而来的文本进行精细化处理,以实现高质量的数据清洗效果。

## 技能
### 技能 1: 精准删除图片内容
仔细辨认文本中所有以![]()格式呈现的图片内容,将其精确删除,确保仅保留纯粹的文本信息。无论是何种来源的PDF数据转换后的文本,都要严格执行此操作。

### 技能 2: 基于章节标题准确提取章节内容
依据不同层级的章节标题对文本进行细致划分,将文本分割成不同的章节。按照章节出现的顺序,自动将章节标注为“章节”标签,之后紧跟对应的章节标题。同时,识别并提取文本中的一级标题(#)的标题内容,将其作为一个变量。

### 技能 3: 规范章节格式
每个 **二级标题(##)** 章节结束后,追加特殊符号 +###,并确保每个章节之间有清晰的换行。每个章节的内容以“正文:(对应正文)”标签开头,紧接着是去除图片链接后的正文内容。对于PDF数据中的文本处理结果,必须严格遵循此格式要求。

### 技能 4:提取 文章题目
从文本中识别并提取文本中的一级标题(#)的标题内容作为文章题目。

### 技能 5:在各分块标签添加题目
在每个“章节”标签以及“正文”标签处,都添加上提取的文章题目作为前缀,格式为“[文章题目]章节:[章节标题]” 、“[文章题目]正文:(对应正文)”。

## 输出格式要求:
1. **章节标识**:
   • 遇到 ## 格式的章节标题,自动标注为“[文章题目]章节”,并准确提取其中的标题内容。
   • 若出现其他章节标识,也按照顺序自动标注为“[文章题目]章节”并依次编号,同时正确提取标题。
   
2. **正文标识**:
   • 正文部分的内容严格标注为“[文章题目]正文:(对应正文)”,正文是每个章节中相应标题(如 ## 或 ###)后的文本内容。
   • 彻底删除正文中所有图片链接(![]()格式的部分),保证正文为纯文本。

3. **格式要求**:
   • **仅在** ##(二级标题)章节的结束后追加符号 +###,其他章节(如 ###)后不追加此符号。


### 示例:
#### 输入:
## 第一章
这是第一章的内容,里面有图片和文字。
![](images/firstimage.jpg)
继续第一章的内容。

### 第二章
这是第二章的内容,删除图片后只剩下文字部分。
![](images/secondimage.jpg)
继续第二章的内容。

## 第三章
这是第三章的内容,无图片,直接展示内容。
文章题目为:示例文章

#### 输出:
[示例文章]章节:第一章
[示例文章]正文:这是第一章的内容,里面有文字部分。

+###

[示例文章]章节:第二章
[示例文章]正文:这是第二章的内容,删除图片后只剩下文字部分。

[示例文章]章节:第三章
[示例文章]正文:这是第三章的内容,无图片,直接展示内容。

+###


## 限制:
• **仅专注处理文本中的图片内容以及基于章节标识的章节内容**,不涉及其他文本处理需求。
• 务必严格删除文本中的所有图片链接,确保输出仅为文本主体内容。
• **仅在##(二级标题)章节的结尾追加符号+###**,不在其他章节格式后追加。
• **必须保证每个章节的结尾准确追加符号+###**,且各章节之间换行清晰,以确保数据处理结果的格式规范。
• 仅处理符合要求格式的文本输入,对于不符合格式的输入,需明确提示用户检查输入格式是否正确。

结束:接收数据清洗后的的文本结果:

结构化后的文本实现了我想要的效果。

关于如何让DeepSeek辅助写提示词,我的做法是给DeepSeek设定了一个角色,提示词大概是这样的:你是一个提示词专家,可以根据用户提出的需求写出专业的提示词,达到最终目的,我给你一个模板,你需要了解这个模板的结构,之后写提示词就按照模板来写:(放你自己找的模板,可以把我上面那个数据清洗专家的提示词丢给他)。
让他明确自己的身份之后,就可以描述你想写什么样的提示词了:

这是我自己写提示词的方法,如果你有更好的方法可以在评论区分享哦~

3. RAGFlow效果测试

这里为了突出数据结构化的效果,我们需要做一个对比,首先把未经过任何处理的PDF文件丢进RAGFlow:

从分块上就可以看出不是很理想,再来测一下数据召回:

看一下数据源,下图里面的数据源和我的问题完全没对上:

之后来测一下做了结构化以后的数据,在配置时候需要把分块标识符配置进去:

数据分块效果:

可以看出来分块比较合理,完全按照了我预想的规则进行了分块,然后测一下数据召回:

看一下数据源,下图中的数据源完美对应上了我提出的问题:


从上面测试的结果来看,数据结构化有助于极大幅度提升数据的召回率,当然,每种数据集都有不同的分块方式,打标签的方式也会因数据集的差异有所不同,这个需要自己去慢慢摸索,对这块有见解的读者也可以私信或者评论区一起交流一下。

5. 结语

本文通过RAGFlow框架的实战演示,系统性地验证了数据结构化对提升RAG系统召回率的核心价值。从PDF清洗(MinerU工具)、文本分块(DeepSeek+Coze标注)到知识库构建,每一步的精细化处理都显著降低了噪声干扰,使语义检索的精准度实现质的飞跃。实验结果对比表明,未经处理的原始数据会导致“语义漂移”,而结构化后的数据召回率得到大幅提升,印证了“数据质量决定AI天花板”的行业共识。

 这份《AI产品经理学习资料包》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以在文末CSDN官方认证二维码免费领取【保证100%免费】
资料包: CSDN大礼包:《对标阿里黑客&网络安全入门&进阶学习资源包》免费分享


AI产品经理,0基础小白入门指南
作为一个零基础小白,如何做到真正的入局AI产品?

什么才叫真正的入局?

是否懂 AI、是否懂产品经理,是否具备利用大模型去开发应用能力,是否能够对大模型进行调优,将会是决定自己职业前景的重要参数。

你是否遇到这些问题:
1、传统产品经理

不懂Al无法对AI产品做出判断,和技术沟通丧失话语权
不了解 AI产品经理的工作流程、重点
2、互联网业务负责人/运营
对AI焦虑,又不知道怎么落地到业务中想做定制化AI产品并落地创收缺乏实战指导
3、大学生/小白
就业难,不懂技术不知如何从事AI产品经理想要进入AI赛道,缺乏职业发展规划,感觉遥不可及
为了帮助开发者打破壁垒,快速了解AI产品经理核心技术原理,学习相关AI产品经理,及大模型技术。从原理出发真正入局AI产品经理。

这里整理了一些AI产品经理学习资料包给大家
📖AI产品经理经典面试八股文
📖大模型RAG经验面试题
📖大模型LLMS面试宝典
📖大模型典型示范应用案例集99个
📖AI产品经理入门书籍
📖生成式AI商业落地白皮书

🔥作为AI产品经理,不仅要懂行业发展方向,也要懂AI技术,可以帮助大家:
✅深入了解大语言模型商业应用,快速掌握AI产品技能
✅掌握AI算法原理与未来趋势,提升多模态AI领域工作能力
✅实战案例与技巧分享,避免产品开发弯路

这份《AI产品经理学习资料包》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
资料包: CSDN大礼包:《对标阿里黑客&网络安全入门&进阶学习资源包》免费分享

AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图


第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击CSDN大礼包:《对标阿里黑客&网络安全入门&进阶学习资源包》免费分享前往获取

3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。


4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以CSDN大礼包:《对标阿里黑客&网络安全入门&进阶学习资源包》免费分享免费领取【保证100%免费】🆓

<think>嗯,用户想提升RAG模型的准确率,特别是在检索和生成这两个方面。那我得先回顾一下RAG的基本结构,然后看看有哪些方法可以优。根据引用[1]提到,RAG包括Embedding模型、向量数据库、提示词工程和大语言模型。所以,提高准确率可能需要从这些部分入手。 首先,检索阶段的优是关键。用户提到的引用[1]和[3]都强调了检索准确率的重要性。比如,使用更高质量的Embedding模型,像OpenAI的text-embedding-3-large或者BGE模型,可能提升向量表示的效果。另外,分块策略也很重要,如果分块太小可能会丢失上下文,太大又可能引入噪音,所以需要根据具体数据调整块的大小和重叠部分。 然后,引用[1]提到的Reranker,也就是重排器,可以在初步检索后进一步优结果。比如Cohere Rerank或者BGE Re-Ranker,虽然会增加延迟,但能有效提升相关性。可能用户需要权衡计算成本和准确率,选择适合的重排器。 还有,预处理数据方面,引用[3]提到数据清洗和结构处理,比如去除噪音、提取关键词,这样可以提升检索质量。元数据过滤也是个好方法,比如按文档类型或时间筛选,减少不相关的结果。 在生成阶段,提示词工程的作用不可忽视。引用[1]和[4]都提到,设计好的提示词,比如明确要求模型基于上下文回答,可以避免幻觉。此外,多步生成策略,如先总结检索内容再生成答案,可能提高准确性。 评估和迭代也很重要。引用[3]讲到了评估指标,比如检索召回率和生成答案的相关性,通过A/B测试不同配置的效果,持续优模型参数和策略。 用户可能的应用场景可能是问答系统或事实核查,需要最新信息支持,所以结合实时数据更新和混合检索(关键词+向量)可能会有帮助。另外,混合生成模型,比如多个LLM投票,可能提升生成结果的可靠性。 不过,用户可能没有提到的潜在需求是平衡延迟和成本,比如Reranker虽然有效,但需要考虑实际应用中的响应时间。还有数据隐私问题,如果处理的是敏感信息,需要确保Embedding和检索过程的安全。 总之,需要综合多个方面的优,从数据预处理、检索策略、重排、提示词设计到生成模型的选择,逐步提升RAG的整体性能。同时,持续监控和评估效果,根据反馈调整策略,才能有效提高准确率。</think>为提高RAG模型的检索和生成准确率,可从以下六个维度进行优,结合最新技术实践与理论依据: ### 一、检索阶段优 1. **Embedding模型增强** - 使用混合检索策略:结合$dense\ vectors$和$sparse\ vectors$(如BM25),提升召回率[^1] - 升级Embedding模型:采用SOTA模型如BGE-v1.5($\text{score}=58.37$ on MTEB)或OpenAI text-embedding-3-large($\text{dim}=3072$)[^3] 2. **分块策略优** - 动态分块算法:基于语义边界自适应调整块大小,公式表达为: $$C_i = \arg\max_{c \in D}(sim(q,c) \cdot \frac{1}{|c|^{0.5}})$$ - 重叠窗口设计:设置10-30%的重叠比例保持上下文连贯性[^3] 3. **重排技术(Reranker)** - 两阶段检索架构: ```mermaid graph LR A[Query] --> B{向量检索} B --> C[Top100候选] C --> D{Reranker} D --> E[Top3结果] ``` - 推荐使用BGE Re-Ranker v2.0($\text{NDCG@10}=86.2$)或Cohere Rerank v3[^1] ### 二、生成阶段优 1. **提示词工程** - 结构模板设计: ```text 你是一个专业助手,请严格基于以下上下文回答问题: [上下文开始] {{context}} [上下文结束] 问题:{{question}} 若上下文不包含答案,请回答"未知" ``` - 思维链(Chain-of-Thought)增强: $$P_{\text{answer}} = \prod_{t=1}^T P(w_t|w_{<t},c,q)$$ 2. **生成控制技术** - 温度参数调节:设置$\tau=0.3$降低随机性 - 约束解码:通过正则表达式限制输出格式 ### 三、数据层面优 1. **知识库构建** - 数据清洗流程: ```python def clean_text(text): text = remove_html_tags(text) text = correct_spelling(text) return normalize_whitespace(text) ``` - 元数据增强:添加时间戳、来源等结构信息 2. **评估体系构建** | 指标 | 计算公式 | 目标值 | |-------------|--------------------------|-------| | 检索召回率 | $\frac{|R \cap G|}{|G|}$ | >85% | | 生成准确率 | $\frac{\text{正确回答}}{\text{总提问}}$ | >90% | ### 四、系统级优 1. **混合架构设计** - 实时更新机制:每小时同步增量数据到向量库 - 缓存策略:对高频查询建立LRU缓存($\text{size}=1,000$) 2. **监控报警系统** - 异常检测模型: $$anomaly\_score = \alpha \cdot \text{空答率} + \beta \cdot \text{时延} + \gamma \cdot \text{置信度}$$ ### 五、前沿技术整合 1. **多模态增强** - 融合文本、表格、图像的多模态检索 - 使用CLIP模型进行跨模态对齐 2. **主动学习机制** - 不确定度采样策略: $$x^* = \arg\max_x(1 - P_{\theta}(y|x))$$ ### 六、持续优闭环 建立"评估-分析-优"迭代循环,建议每两周进行效果复盘。通过A/B测试验证优措施,确保准确率提升符合预期[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值