Effectively Learning Spatial Indexes with a Support for Updates
学习索引被提出用机器学习(ML)模型来取代经典的索引结构,如b树。它们需要替换数据库当前部署的索引和查询处理算法,而这种彻底的背离很可能会遇到挑战和障碍。相比之下,本文提出了一种完全不同的方法,使用ML技术来构建更好的r树,而不需要改变传统r树的结构或查询处理算法。开发了基于强化学习(RL)的模型,以决定在构建和更新r树时如何选择用于插入的子树以及如何分裂节点,而不是依赖于r树及其变体目前使用的手工设计的启发式规则。在具有超过1亿个空间对象的真实和合成数据集上的实验表明,基于RL的索引在查询处理时间方面优于r树及其变体。
一解决的问题
本文建议为构建和更新r树的两个关键操作,即选择子树和分裂,建立ML模型,这些操作目前依赖于手工设计的启发式规则
二作用
我们提出的方法有几个显著的特征。(1)基于学习的索引可以处理任何空间对象,如矩形对象。(2)不修改r树结构,因此目前部署的所有查询处理算法都将适用。这将使基于学习的索引更容易被当前的数据库部署。(3)基于学习的索引能够返回准确的查询结果。(4)基于学习的索引是为动态环境设计的,可以很容易地处理更新。
三方法
这种观察激励我们通过用机器学习模型替换或增强它们的启发式策略来处理选择子树和拆分操作。观察到在插入数据对象时,这两个操作是在一个顺序的过程中调用的,因此将它们建模为两个马尔可夫决策过程(MDP