Updatable Learned Index with Precise Positions(VLDB2022)

最新推荐文章于 2024-08-14 17:14:35 发布

原创最新推荐文章于 2024-08-14 17:14:35 发布

· 620 阅读

0 ·

版权

文章标签：

#数据库

学习索引专栏收录该内容

38 篇文章

订阅专栏

在现代数据库引擎中，索引在加速查询处理方面起着至关重要的作用。“学习索引”的新范式极大地改变了DBMS中索引结构的设计方式。关键的见解是，索引可以被视为预测数据集中查找键位置的学习模型。虽然这类研究在查找时间和索引大小方面都显示出良好的结果，但它们不能有效地支持更新操作。尽管最近的研究提出了一些支持更新的初步方法，但它们是以牺牲查找性能为代价的

在本文中，我们提出了一个全新的学习索引框架LIPP来解决这一问题。与最先进的学习索引结构类似，LIPP能够支持各种索引操作，即查找查询、范围查询、插入、删除、更新和批量加载。同时，我们克服了前人研究的局限性，在处理更新操作时对树结构进行了适当的扩展，消除了模型在叶节点上预测的位置偏差。此外，我们进一步提出了一个动态调整策略，以确保树index高度是紧密有界的，并提供了全面的理论分析来说明它。我们对几个真实的和合成的数据集进行了广泛的实验。结果表明，我们的方法始终优于最先进的解决方案，对于具有不同索引操作的更广泛的工作负载类别，最多可实现x4。

背景：

1）近年来对学习索引[22]的研究为排序数据的索引构造开辟了一条新的途径。给定一个数据集，Learned Index利用机器学习模型来学习数据分布，并预测查找键在数据集中的位置。

2）原始的Learned Index[22]只支持只读数据集的查找，无法处理索引结构中必不可少的更新操作。

3）ALEX[11]和PGM[12]提出了几种策略来增加对索引更新的支持。但是，它们可能会受到较差的查找性能的影响。此外，对这些索引的更新操作也会导致大量的元素移动。这些开销都是由已有模型的不精确预测带来的。

方法：

在此基础上，我们提出了基于精确位置的可更新学习索引(LIPP)，这是一种全新的学习索引，能够高效地支持一整套索引操作，包括查找查询、范围查询、插入、更新、删除和批量加载。LIPP的一个明显优势是它消除了叶子节点中的最后一英里搜索，从而将查找成本限制在树的高度上，并显著提高了索引性能。在LIPP中键到位置的映射是精确的。如果多个键映射到相同的位置，将创建一个新的子节点来保存这些键。为了限制树索引的高度，我们提出了能够均匀化的核化线性模型将新插入元素的映射分配到位置，并使用轻量级调整策略保持树的高度有界。

框架：THE LIPP INDEX

LIPP的核心思想是避免不准确的预测，即所有模型的预测都是准确的。使用精确的位置，可以消除不可避免的重要开销，包括节点内搜索查找，元素移动插入。然而，为了实现这一目标，我们需要克服以下两个挑战:首先，两个不同的键的预测可能会在一个位置重合。我们将具有这种键的元素称为冲突元素。第二个挑战来自于第一个挑战:简单地为冲突的键创建新节点会导致树的高度无限制地增加，从而损害索引查找和插入操作的性能。