今天讲了Spatial Keyword Query Processing: An Experimental Evaluation这篇文章,现总结摘要如下:
一、应用背景
1. 解决的问题
当前的基于空间文本的索引没有在同一个框架下进行一个系统的比较,因此很难选择出支持某个方法最好的索引结构。作者对12中最好的空间文本进行了全面的研究,并通过实验对每中索引结构进行了总结。
2. 最常用的查询
Boolean Range Query(BRQ):查询指定范围且包含所有关键字的目标
Boolean kNN Query(BkQ):查询包含所有关键字离查询点最近的k个目标
Top-k kNN Query(TkQ):综合考虑位置关系和文本相关程度,选取前k个高的分的目标
3. 其他查询
m-closest keyword Query:查询包含所有关键字且相对聚集的目标
Spatial Group Keyword Query:查询包含所有关键字且相对聚集或离查询点较近的一组目标,注意单个目标不一定包含所有的关键字。
Reverse spatial and textual k nearest neighbor query:查找Top-k结果中包含查询点的所有目标
Moving top-k:查询点由静态的点换成动态的
Direction-aware:查询指定方向上包含所有关键字离查询点相近的k个目标
Query region:所有的对象由点变成了区域,类似于TkQ,查询与查询点有高得分的前k个目标,空间相关性用重叠区域表示。
4. 索引结构
按空间索引有R-Tree、网格、空间填充曲线三个系列;按文本索引可以分为倒排表(inverted file)、位图(bitmap)两种;按结合方式可划分空间优先、文本优先和紧密结合三种方式。
二、作者贡献
作者选择了三个不同大小的数据集,对性能较优的12种索引结构的实验结果进行了分析。
三、展望
现在人们越来越倾向于寻找空间位置和文本相关性紧密结合的索引或者方法。