RAG文档处理中的数值图表和流程图如何解析?

从表示方式到代表解决方案

文章转自公众号老刘说NLP

我们从今天起,得换个写法,回归到实际场景业务,谈谈一些解决方案的话题。

最近琢磨的事情,就是现在很多文档场景,其实本质上都是做的数字化的过程,核心是从不可编辑到可编辑,比如常见的表格解析、文档转markdown、docx等。

今天,我们来看看一个比较有趣的话题,这其实是RAG中的一些图表的解析方案,讲讲数值图表的解析以及流程图的解析。

一些很有趣的思路,供大家一起参考。

一、先说数值图表的解析

而进一步的,其实,文档还是会有流程图、柱状图等数值图表,也有一些其他图片。

其中,对于柱状图等数值图,目前已经有了很多将柱状图转为底层json_dict的方案,比如onechart(https://arxiv.org/pdf/2404.09987)、unichart(https://arxiv.org/pdf/2305.14761)等。其核心是通过构造<数值图表, json_dict>的输入输出对,然后丢入多模态模型进行sft微调。

3938590ff5c3cd04f6bf816913c66411.jpeg

关键点是这个微调数据的生成,主要是靠反向渲染(通过生成json_dict数据(例如让chatgpt生成,或者自定义模版生成,数据的表示也很有趣,主要是使用json_dict来表示x轴、y轴以及对应的数值列表,以及对应的类型信息,比如饼图、折线图等),然后送入matplotlib、echarts或者pyecharts进行渲染。

9b572ae73f1d235e1a171c79b56b8c20.jpeg

所以,这种思路,其实就是在拟合数据集,很容易因为数据的多样性不足,表现并不稳定,很容易出现幻觉。将这些数据转写之后,可以再进行分析,以及类型转换等。

二、再看流程图的解析

而对于流程图,流程图(FlowChart)是描述我们进行某一项活动所遵循顺序的一种图示方法,能通过图形符号形象的表示解决问题的步骤和程序。

调研了一圈,其实做的人并不多,总结起来,就是几个核心问题。

1、flowchart如何表示问题

flowchart其实有很多种,如使用bing搜索,能找到很多不同的flowchart图像,如下:

392e8c340cdf720b482283754b2eb767.jpeg

如果要进行呈现,则有不同的表示语法。

例如,使用mermaid(https://mermaid.nodejs.cn/syntax/flowchart.html)表示流程图,例如如下语法可以表示订单处理流程。

flowchart&nbsp;LR
A[下单]&nbsp;-->&nbsp;B{库存检查}
B&nbsp;–&nbsp;有货&nbsp;-->&nbsp;C[支付]
B&nbsp;–&nbsp;无货&nbsp;-->&nbsp;D[提示缺货]
C&nbsp;-->&nbsp;E{支付成功?}
E&nbsp;–&nbsp;是&nbsp;-->&nbsp;F[发货]
E&nbsp;–&nbsp;否&nbsp;-->&nbsp;G[支付失败]
G&nbsp;-->&nbsp;A

渲染之后为:

8995b3973d87fa729f58b0320456abcb.jpeg

也可以使用UML(https://www.visual-paradigm.com/cn/guide/uml-unified-modeling-language/what-is-uml/,https://www.w3cschool.cn/uml_tutorial/uml_tutorial-kty628y9.html)表示流程图,UML是统一建模语言的简称,它是一种由一整套图表组成的标准化建模语言。

21b2e530cd04d75a2860d965cc420eb4.jpeg

也可以使用networkx来表示,专门绘制图的,表示的是Graph的形式。

import&nbsp;networkx&nbsp;as&nbsp;nx
import&nbsp;matplotlib.pyplot&nbsp;as&nbsp;plt
data_dict&nbsp;=&nbsp;{
&nbsp;&nbsp;&nbsp;&nbsp;1:[{ 'left':20,&nbsp; 'right':21}],
&nbsp;&nbsp;&nbsp;&nbsp;20:[{ 'left':30,&nbsp; 'right':31}],
&nbsp;&nbsp;&nbsp;&nbsp;21:[{ 'left':40,&nbsp; 'right':41}],
&nbsp;&nbsp;&nbsp;&nbsp;30:[],
&nbsp;&nbsp;&nbsp;&nbsp;31:[],
&nbsp;&nbsp;&nbsp;&nbsp;40:[],
&nbsp;&nbsp;&nbsp;&nbsp;41:[]
}
G&nbsp;=&nbsp;nx.DiGraph()
#&nbsp;step&nbsp;1:&nbsp;add&nbsp;edges
for&nbsp;key&nbsp; in&nbsp;data_dict:
&nbsp;&nbsp;&nbsp;&nbsp; print(key)
&nbsp;&nbsp;&nbsp;&nbsp; for&nbsp; source&nbsp; in&nbsp;data_dict[key]:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if&nbsp; 'left'&nbsp; in&nbsp; source:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; print( 'left&nbsp;[%d]'&nbsp;%&nbsp;( source[ 'left']))
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if&nbsp; source[ 'left']&nbsp; in&nbsp;data_dict:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;G.add_edge(key,&nbsp; source[ 'left'])
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if&nbsp; 'right'&nbsp; in&nbsp; source:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; print( 'right&nbsp;[%d]'&nbsp;%&nbsp;( source[ 'right']))
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if&nbsp; source[ 'right']&nbsp; in&nbsp;data_dict:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;G.add_edge(key,&nbsp; source[ 'right'])

#&nbsp;nx.draw_networkx(G)
#&nbsp;plt.show()
print(G.edges())

效果图如下:

c85fbe956ad597670a54e073136f905a.jpeg

当然,也可以使用知识图谱三元组的表示形式,<头节点,关系,尾节点>,每个流程图的环节,都可以用若干个三元组构成。

另一种,就是用视觉的方式进行表示,标注对应的boundingbox以及位置信息等。

c4bc802eb04735e58aa852c338893ea5.jpeg

2、如何解析流程图

只要确定了流程图的表示方法,如何要对流程图进行解析,那么就只需要将转为对应的表示形式就行。其中的核心难点是流程图中节点的识别、线的识别以及ocr识别,前面的节点识别还好,用目标检测即可,ocr也好,也有现成的,主要是线的识别【当然,解析的程度还可以进一步分为内容、形状、颜色以及布局等,这些则是另外的实现策略了】。

所以,目前有两个主流方法。一个是多模态的方法,一个是传统深度学习CV处理的方案。

多模态方法上,和图表类解析一致,做成端到端的方案,如&nbsp;《FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding》(https://arxiv.org/pdf/2407.05183)

82551731679f7154f0e4367abcc44339.jpeg

例如,在qwen-vl上,直接将其解析为三元组的表示,说明其实有理解能力的。

8d1d2d64c596c1f5825ad690cff44302.jpeg

同理,流程图跟思维导图其实也很像,如《MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis》(https://arxiv.org/abs/2407.02842),使用markdown来表示流程图:

14f8fb72adb38278793efd0c1c675a9d.jpeg

可以直接使用“ Please convert the mind map to markdown. Use #, ##, ##, ####, and so on to represent nodes at different levels.“的prompt来识别:

17f80caf6e322f9a459d79deb558dbb9.jpeg

另一个是使用传统cv目标分割的方案去做,代表的方案是《Flowmind2Digital: The First Comprehensive Flowmind Recognition and Conversion Approach》(https://arxiv.org/abs/2401.03742),讲了讲如何将手绘的流程图和思维导图(统称为flowmind)自动转换为数字格式。

8b8b52a9742406b50fcc3ad96c6daf69.jpeg

Flowmind2digital方法包括两个主要部分:对象和关键点检测,以及后处理。

acead374d11db0618c835de7035ccf4e.jpeg

首先是对象和关键点检测,使用Mask-RCNN进行对象检测,能够同时检测形状、关键点和文本。Mask-RCNN的两阶段架构包括区域提议网络(RPN)和感兴趣区域网络(ROI),分别负责生成区域提议和分类、细化边界框位置。

33a5090ddaeb9c257df011849fc5a3ff.jpeg

其次后处理,包括形状生成、连接确定、文本内容提取和自动排版。

在形状生成阶段,使用python-pptx库与Microsoft PowerPoint交互,或使用win32com库与Visio交互,将检测到的关键点坐标转换为相应的形状。

在连接确定阶段,通过计算连接器和形状之间的欧几里得距离,确定连接器的连接点(这个比较关键)。

435475ca6803a87aef2102dc7bbd2549.jpeg

按照原文的叙述,假设检测到的形状在边界框中设定为标准化方向(具有水平基线),该过程首先计算每个形状上的候选点,参考PPT和Visio形状上的可连接锚点。其次,对于每个连接点关键点,它识别所有形状上最近的候选点。对于多边形,它计算关键点到每条边的垂直距离(如图13a所示的𝑑₁, 𝑑₂)。需要注意的是,如果垂直线的落脚点位于边的延长线上,则选择从关键点到边端点的最短距离作为最短距离(如图的𝑑₁₃, 𝑑₂₄)。对于非多边形,它根据PPT和Visio的连接规则在形状上确定𝑛个候选点,并指定关键点只能与这些点相连。例如,圆的候选点为上、下、左、右、左上、左下、右上和右下。最后,对于每个关键点,选择具有最近候选点的形状作为连接对象。

在文本内容提取阶段,使用OCR软件提取文本框内的具体内容,在自动排版阶段,采用基于Canopy和K-means算法的两阶段聚类模型,调整形状的大小和位置,生成最终的输出文件。

最后,这个工作还做了一个数据集和模型,对应的数据集、模型在:https://github.com/cai-jianfeng/flowmind2digital

8539f6559e0c96132d6a604636b6fdad.jpeg

总结

本文主要围绕文档中的图标解析这一工作作了介绍,分别介绍了先说数值图表的解析、流程图表解析两个任务的一些代表方案。

整个大的潮流,其实都是往多模态的方向做,但受限于图片分辨率、OCR效果以及多样性,所以,但多模态大模型已经有了初步这样的能力。

参考文献

1、https://arxiv.org/pdf/2404.09987

2、https://arxiv.org/abs/2401.03742

3、https://arxiv.org/pdf/2407.05183


### 如何在 RAG 架构中使用 LangChain 处理图像 RAG(检索增强生成)是一种结合外部知识库来改进大语言模型输出的技术。虽然传统上它主要用于文本数据,但在某些情况下也可以扩展到其他模态的数据,比如图像。以下是关于如何利用 LangChain RAG处理图像的具体方法。 #### 图像数据的预处理 为了使图像能够在 RAG 中被有效使用,通常需要将其转换为可嵌入的形式以便于后续操作。这可以通过提取特征向量实现。例如,可以采用预训练的卷积神经网络 (CNN),如 ResNet 或 EfficientNet,将图像转化为高维特征表示[^1]。 ```python from torchvision import models, transforms import torch def extract_image_features(image_path): model = models.resnet50(pretrained=True) preprocess = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) image_tensor = preprocess(Image.open(image_path)).unsqueeze(0) with torch.no_grad(): features = model.fc(model.avgpool(model.layer4(model.layer3(model.layer2(model.layer1(model.conv1(image_tensor))))))) return features.squeeze().numpy() ``` 上述代码展示了如何通过 PyTorch 提取图像特征并作为输入传递给下游任务的一部分[^2]。 #### 数据流设计 当涉及到图像时,完整的 RAG 流程可能如下所示: 1. **索引构建**: 使用预先计算好的图像特征建立一个高效的相似度搜索引擎,例如 FAISS 或 Annoy。 2. **查询阶段**: 对新传入的图像执行相同的特征提取过程,并基于这些特征从已有的数据库里找到最接近的结果集。 3. **融合与生成**: 将检索出来的相关信息连同原始请求一起送至大型语言模型或其他类型的预测器那里完成最终响应合成工作。 这种机制允许我们即使面对从未见过的新颖视觉样本也依然能给出合理解释或者建议。 #### 实际应用案例分析 假设有一个电商网站想要为其用户提供个性化的商品推荐服务,则可以考虑部署这样一个系统:每当顾客上传一张照片后,服务器会自动识别该物品类别并通过关联的产品描述文字进一步细化搜索条件;最后返回一系列匹配程度较高的候选选项供浏览挑选。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值