电网知识图谱项目总结(2)从局部文档RDF到全局知识图谱构建

本文总结了一项将局部文档中的RDF三元组整合成全局知识图谱的过程,涉及节点和边的抽取、过滤重复,强调了刷题经验在项目中的实际应用。通过字符串处理、集合和字典技巧构建了数据结构并实现了图谱构建框架。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

电网知识图谱项目总结(2)从局部文档RDF到全局知识图谱构建

背景

上一篇总结了三元组抽取的具体操作,最终结果是每个文档内对应的三元组构成一个表格,这样有几百个文档。现在要汇总这些文档内的三元组,根据特定三元组构建与所有该类型相关的三元组对应的节点和边关系,然后将数据保存在表格中,所以需要抽取同类型的节点和边,过滤重复出现的节点和边。现在面临的问题和上次很相似,关系过多,需要一条一条处理,过于繁琐和重复,但这些都是避免不了的,还是踏踏实实一条一条写~

构建规范

下图是需要构建的节点Node和边Edge汇总。需要从所有的三元组中抽取出节点集和边集。最终需要的数据就是每个节点对应的编号属性集,节点和节点构成的边集(边中对应节点的编号),和数据结构中图类型graph一致。

在这里插入图片描述

在这里插入图片描述

构建框架

- AllPaths
- ReadNodes
- GlobalNodes    
- GlobalEdges    
- SameDataFilter 
初始文件
- RDF-Files(.xls)
结果文件
- Nodes (.xls)
- Edges (.xls)

相关类和文件关系如框架所示:

在这里插入图片描述

最终结果

最后得到的两个表格中部分sheet示例如下:

Nodes表

在这里插入图片描述

Edges表

在这里插入图片描述

总结

这个项目还是让我意识到了刷题的重要性,刷题是一个需要慢慢沉淀的过程,你做过的不同类型的题,会在往后学习、业务或项目中不经意地用到,某个场景中某个问题就类似于一个算法的逻辑,应用的方法是一样的。就拿这次的项目来说吧,首先考察的就是对字符串的处理,这需要对字符串的常用函数有一个了解,还有拆分、定位等一些情况的积累,其次就是集合的应用,这里面用的最多的就是集合(python中对应set())和字典(python中对应dict())。在得到全局边时和过滤数据时,不停地用集合;在得到边时,需要用字典建立一个节点间的映射,这就用到了字典。本次项目相当于一个大的字符串处理和图数据的构建,再根据每个三元组对应关系拆封为一个个小问题,主要是对数据的处理和过滤。框架逻辑和函数细化方面写的还是挺缜密的,一步步调用处理从而得到最终的结果。

总之所有的知识都不会白学的~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白鳯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值