Aurum: A Data Discovery System 个人阅读心得

zzzzzzzcccc

于 2023-07-21 17:01:37 发布

阅读量243

点赞数

文章标签：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzzzzzzcccc/article/details/131852681

版权

文章提出AURUM，一种用于构建、维护和查询企业知识图谱（EKG）的方法。通过sketching技术和LSH，一次性遍历数据库来建立EKG，并使用RESS方法进行增量维护，仅需少量数据即可判断更新需求。关系构建阶段利用Jaccard和cosine相似度识别列间关系，包括主键-外键关联。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前置知识：

minhash, LSH(locality-sensitive hashing，局部敏感hash)

可自行百度

一、问题提出

数据存储在不同的数据库系统中，导致查询效率很低，降低了研究人员的工作效率

因此，本文提出了一种捕获EKG(enterprise knowledge graph)中数据库的关系，从而使用户更好查询数据。

本文的主要贡献为：AURUM，一个能够建立、维护和查询EKG的方法。

其中，在建立EKG的过程中，提出了一种只用遍历一遍数据库的方法；在维护过程中，提出了RESS方法，只需要使用数据集中的一小部分即可判断数据库中需要更新的部分。

二、构建(build)

本文中将这一过程分为了两步

1. sketching technique

2. locality-sensitive hashing

1. signature-building阶段

由profiler模块进行：将数据转换为profiles，其中包含了足够用于计算相似度的语义信息

其中包含了一系列处理子模块，在伪代码中用compute_profile()表示

其中两个特殊的子模块为：source/sink 子模块

为了加快处理速度，在三个层次上引入了并行机制

任务粒度

2. relationship-building阶段

由graph builder模块进行：时间复杂度为O(n)

在这一部分中使用上一阶段处理得到的profiles文件

使用Jaccard 相似度和cosine相似度

在这一部分中计算出的相似度都是具体数值，方便后续根据阈值进行处理

此外，还需评估两列是否是主键-外键关系：利用每列中数据是否互不相同进行判断

本部分伪代码如下：

算法输入：数据库中所有列的集合C、用于存储列标签的store、相似度阈值

算法输出：H = (V，E)，其中V为EKG中的节点，E是连接节点的语义关系集

算法步骤：

1. 对于数据库中的每一列c：

1) 计算c中的相关属性，存入profile

2) 将profile存入store

3)像H中添加结点

2. 对于store中储存的每一个profile：

1) 对p.name 和 p 构建索引

2) 对p.signature 和 p 构建索引

索引中同样包含阈值

3. 对于store中储存的每一个profile

1) 利用LSH算法得到与p属性值相似的候选者，并建立边

2) 利用LSH算法得到与p内容值相似的候选者，并建立边

3) 在与p内容值相似的候选者中，进一步判断出是否有主键/外键关联

三、维护

由于所连接的各个数据库中都会存在增删改查等行为，故而需要对EKG进行维护

增量维护

当某一列数据的变化过大时，需要重新计算这一列的标签

作者在此处提出了RESS方法

在这个方法中，只需根据这一列数据c的子集s便可判断这列的标签是否需要更新

本部分伪代码如下：

算法输入：数据库中所有列的集合、存储各个列标签的store库、衡量某一列变化程度的阈值γ

算法输出：需要更新标签的列的集合

算法过程：

对于数据库中的每一列c：

1. 从c中任选子集s

将c中互不相同的数据个数记为x

JS_max记为|s|/x

2. 对子集s求minhash,记为s_mh

从store中读取c的content_signature, 记为x_mh

JS' = s_mh和x_mh的Jaccard相似度

3. 根据1-JS'/JS_max的值判断是否需要更新列c

博客等级

码龄4年

8
原创

7
点赞

3
收藏

4
粉丝

关注

私信

热门文章

最新评论

python 安装networkx失败原因
水尧: 原来是这样，成功了，感谢
python 安装networkx失败原因
2401_84775218: 怎么关闭啊
NameError: name ‘jsonlines‘ is not defined
CSDN-Ada助手: 恭喜您写了第8篇博客！看到您在标题中遇到的问题，我想分享一些建议。首先，关于“NameError: name ‘jsonlines‘ is not defined”这个错误，它通常是由于未正确导入或定义jsonlines模块所致。我建议您检查一下是否正确导入了这个模块，并确保在使用它之前进行了正确的定义。这可能只是个简单的疏忽，但仍然值得去检查一下。另外，我非常欣赏您的持续创作精神！保持写作的势头对于提高技能和表达能力非常重要。接下来，我建议您继续积极探索各种主题，挑战自己写作的广度和深度。您可以考虑探讨一些与博客主题相关的实用技巧、案例分析或者个人经验分享，这将为您的读者提供更多有价值的内容。继续加油，期待看到您的下一篇博客！如果您有任何问题或需要进一步的帮助，请随时向我提问。谢谢！
python针对特定解释器安装包
CSDN-Ada助手: 恭喜您写了第7篇博客！标题为“python针对特定解释器安装包”，这个话题听起来很有深度。您在探讨特定解释器下的包安装问题上做了很棒的工作。我很喜欢您对于Python生态系统的深入研究。接下来，我期待您能继续分享更多关于Python的技术文章，或者您对于其他Python相关主题的见解和经验分享。谦虚提醒一下，因为您的文章能够帮助更多的开发者，所以请继续保持写作的热情，并继续为读者提供有价值的内容。祝您创作愉快！
linux gcc-4.8.5下载心得
CSDN-Ada助手: 恭喜您开始博客创作！标题为“linux gcc-4.8.5下载心得”的文章看起来很有价值。写下您的心得体会，对于初次尝试分享经验，您已经做得很好了。接下来，或许您可以考虑分享一些gcc-4.8.5在Linux环境下的实际应用场景和解决方案，这将进一步丰富您的博客内容，让读者受益更多。期待您的下一篇文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。