基于RDF图的Skyline高效检索算法设计
首先,该篇博客使用的数据集是yago,首先阐述下数据集共有三个文件,分别存放每个顶点关键词、顶点之间的连接关系和地点p集合。高效检索算法的起点是若干顶点关键词,过程是在RDF图中寻找较为合适的地点(各个关键词都可达,并且不被任何其他地点支配),终点是返回不被其他地点支配的地点,也就是skyline point,下面简称为SP。
相信不了解问题背景的小伙伴应该对于RDF图和语义地点支配关系应该并不熟悉,因此,下一部分由小编给大家做下背景知识介绍。
由于算法较为复杂,这篇博客只对关键部分进行阐述,不详细阐述算法有关的原理和定理,想要深入了解这部分内容可以到小编主页的资源页面下载相应的论文和高效检索算法实现的源码。
第一章 RDF图和语义地点支配
1、RDF图
下面图1为一个RDF图的实例,图中p点为语义地点1;v点为一般顶点,不作为检索结果返回;两个顶点间可达在图1中体现为存在连接两点的路径。图2为顶点的文本信息,也就是每个顶点所含有的关键词。
2、语义距离
由图2中可知,v3中含有art,p3也含有art,因此,p1到art这个关键词有两条路,分别为
D(p1,v3)=3,D(p1,p3)=1;