WISK: AWorkload-aware Learned Index for Spatial Keyword Queries
空间对象通常带有文本信息,如兴趣点(point of Interest, poi)及其描述,这被称为地理文本数据。为了检索此类数据,同时考虑空间邻近性和文本相关性的空间关键词查询被广泛研究。现有的空间关键词查询索引大多是基于地理文本数据建立的,没有考虑已有查询的分布情况。然而,已有研究表明,利用已知的查询分布可以改进索引结构,为未来的查询处理提供支持。本文提出WISK,一种用于空间关键字查询的学习索引,在给定查询负载的情况下,可以自适应优化查询成本。一个关键的挑战是如何在学习索引时同时利用结构化的空间属性和非结构化的文本信息。首先对数据对象进行分区,以最小化给定查询负载的处理成本为目标;证明了划分问题的np -困难性,并提出了一个寻找最优划分的机器学习模型。然后,为了实现更强的剪枝能力,基于生成的分区,采用基于强化学习的方法,以自底向上的方式构建分层结构。在真实数据集和不同分布的查询负载上进行了广泛的实验,结果表明,WISK优于所有竞争对手,在存储开销相当的情况下,查询时间的加速比最高可达8倍。
目标:
使用空间和文本信息学习索引结构,最小化使用该索引的查询负载成本
挑战:
1. 学习空间关键词索引的关键挑战是如何在索引学习过程中捕获数据和查询分布,同时考虑结构化的空间信息和非结构化的文本属性。
2. 利用捕获到的数据分布对数据对象进行分区,从而在查询过程中过滤掉更多不相关的分区,从而提高查询效率
方法
1. 可以观察到,查询