A Tutorial on Learned Multi-dimensional Indexes


论文地址

ABSTRACT

        近年来,机器学习(简称ML)已成功应用于数据库索引。对学习索引的初步实验表明,与传统数据库相比,其搜索性能更好,空间需求更低。为了将学习到的索引扩展到多维空间,已经进行了许多尝试。这使得学习的索引可能适用于空间数据库。本教程的目标是在单维和多维空间中提供学习索引的最新内容。本教程涵盖了25个学习过的索引。本教程通过分类法浏览学习索引的空间,该分类法有助于在一维和多维空间中对所涵盖的学习索引进行分类。

CCS CONCEPTS

        • Database Systems → Indexing; • Machine Learning → ML for Systems.

KEYWORDS

        Learned Indexes, Spatial, Multi-dimensional

1 INTRODUCTION

        由于机器学习领域最近取得的成功,系统社区出现了两种研究趋势:面向机器学习的系统和面向系统的机器学习。ML系统旨在为高效ML工作负载构建大规模系统。相反,系统ML旨在使用基于ML的方法来替换系统的核心组件,以获得更好的性能和更少的空间需求。本教程属于系统ML的大类。更具体地说,本教程解决了以下问题:可以使用ML技术来指导数据索引吗?ML技术可以代替多维索引吗?
        数据库管理系统(DBMS)设计为通用型。现代数据库管理系统的这种通用性并不考虑特定应用程序和用户数据的具体情况。在大多数DBMS中,为了高效地访问数据,使用了索引结构,例如B+树。因此,这些索引结构得到了高度优化,但属于通用数据结构。换句话说,它们在索引的优化过程中没有利用底层数据分布的知识。为了进行说明,假设我们有1到5M个连续整数键。现在,为了搜索特定的键,我们可以使用键本身(而不是B+树)作为偏移量。因此,搜索操作的对数复杂度可以降低到𝑂(1).
        通过解决这个问题,关于“学习索引”的第一项工作改变了对DBMS索引的看法。上述工作背后的关键思想是“索引是数据的模型”。比如说给一把钥匙𝑘, 指数只是预测𝑘 在数据集中。因此,可以学习索引。令人惊讶的是,学习到的索引显示了更好的搜索性能和更低的空间需求。
        虽然术语“学习索引”最近很流行,但在数据索引中使用学习机制的想法并不完全是新的。使用ML技术的早期索引的一个示例是手写trie,它在trie结构上使用隐马尔可夫模型来索引学习模型。然而,与最近学习索引的趋势相比,这项早期工作的重点是对学习的模型进行索引。在本教程中,我们将讨论两种趋势:(1)为学习模型编制索引,(2)学习索引或所谓的学习索引。
        这些最初的工作重点是只读工作负载。为了处理更新,提出了一类新的可更新自适应学习索引。已经证明,仔细的时空权衡可以产生可更新的数据结构。
        在空间数据库索引领域,需要支持多维数据。R-树及其变体和四叉树及其变体被广泛研究并在实践中广泛使用。已经进行了初步尝试,将R-树替换为学习的对应树。随后进行了一系列后续工作,以建立学习的多维索引。
在这里插入图片描述

Figure 1: The outline of the tutorial (50 minutes).

        本教程将提供所学多维索引的最新内容。本教程的目标受众是具有数据结构和算法基本知识的学生、学者、研究人员和实践者。我们假设基本了解基本数据索引结构,例如B树、R树、四叉树、空间填充曲线和Bloom过滤器。本教程旨在提供与索引结构的“学习”部分相关的概念的所有必要背景知识。本教程的目标成果如下:

  • 了解传统多维索引的局限性。
  • 了解开发学习的多维索引背后的动机。
  • 熟悉和更新最先进的多维索引结构。
  • 强调学习多维索引领域的研究挑战和新机遇。

2 OUTLINE OF THE TUTORIAL

        本教程包括两个主要部分,如图1所示。第一部分将包含整体问题设置和为一维案例引入的学习索引。本教程的第二部分将介绍学习的多维索引的现有工作。我们将使用一个简单的分类法在学习索引的空间中导航,该分类法是我们在现有学习索引的文献上开发的。下面给出了分类法的示例快照。
在这里插入图片描述

Figure 2: A sample taxonomy of Learned Index Structures

2.1 Part 1: Learned Index Structures

        这一特定领域的工作链始于2018年题为“学习索引结构的案例”的论文。在本文中,关键思想是一维索引,例如B+树,可以被视为学习模型。为了搜索键,B+树只需查找(预测)键在叶级逻辑排序数组中的位置。如果我们遵循这个假设,通过学习输入数据的累积分布函数(CDF),可以学习索引的映射函数。由于CDF的复杂性,在完整数据上学习的单个ML模型无法提供所需的精度。为了解决这个问题,引入了递归模型索引(简称RMI)。一些学习到的索引使用RMI,例如AIDEL、ASLM和Hybrid-O。[29]中提供了调整学习索引的演示。
        在学习索引的上下文中处理动态数据集是一项挑战。原因如下。给定一个数据集,训练基于ML的模型以捕获底层数据集的CDF需要花费大量时间。给定对底层数据集的新插入或更新,这在某种意义上可能会改变CDF或至少干扰数据和学习模型的分布。因此,在多次插入、删除和更新时,我们需要对模型进行重新训练,即在再次训练之前降低学习索引的效用。学习索引中的更新和插入已在几个新提出的索引中解决。
        在[7、8、17、27、30、38、40、42、43、43、44]中可以找到一系列关于学习指数各个方面的后续工作。在[10]中,使用插值提出了一种数据感知索引结构。引入了混合方法(带有辅助模型)。强化学习已用于路由查询和学习索引中的数据。我们在本教程中介绍的其他相关最新论文有:[19、20、28、39]以及关于学习数据结构的调查。这些以及其他学习到的索引将在本教程的第1部分中介绍,并将作为本教程第2部分的基础。

2.2 Part 2: Learned Multi-dimensional Indexes

        当然,研究人员已经探索了如何将学习索引的概念扩展到多维空间。有几项工作探索了将多维数据投影到一维空间作为预处理步骤,然后在数据的一维投影上建立学习索引(例如,如[21]中所示)。Flood[31]是另一种在内存中学习的读取优化索引,自动适应特定的多维数据集和工作负载。在[16]中,提出了一种插值友好的多维索引。LISA[24]是一种基于磁盘的学习多维索引。在[41]中,将Z阶空间填充曲线与分阶段学习模型相结合,以建立多维索引。其他近期作品包括:[3, 5, 11, 32, 33]. 本教程将涵盖这些多维学习索引,并演示它们的工作方式及其面临的挑战。最后,本教程将列出几个有待进一步研究的开放问题。

3 RELATED TUTORIALS

        SIGMOD 2019中提供了一个相关教程,题为“从自动调整一刀切到自行设计和学习的数据密集型系统(教程)”。ICDE 2020中提供的另一个非常密切相关的教程,题为“机器学习满足大空间数据”. 这些教程介绍了如何使用ML方法代替各种系统组件。虽然这些教程是相互补充和相互关联的,但它们并没有直接关注本教程的主题,即最近热门的学习索引主题。

4 PRIOR TUTORIALS

        目前,作者还没有在任何其他场所提供本教程,SIGSPATIAL 2020将是第一个提供本教程的场所。
        作者之一瓦利德·G·阿雷夫(Walid G.Aref)过去曾就不同但相关的主题提供过几篇教程。具体如下:

  1. Ahmed R. Mahmood and Walid G. Aref, “Query Processing Techniques for Big Spatial-Keyword Data”, International Conference on Management of Data (SIGMOD): 1777-1782,2017.
  2. Mohamed F. Mokbel and, Walid G. Aref, “Location-aware Query Processing and Optimization”. In the IEEE International Conference on Mobile Data Management (MDM),Mannheim, Germany May 2007.
  3. Mohamed F. Mokbel and Walid G. Aref, “Location-aware Query Processing”, In the International Conference on Extending Database Technology (EDBT), Munich, Germany, March 2006.
  4. Ihab F. Ilyas and Walid G. Aref, “Rank-aware Query Processing Tutorial”, In the IEEE International Conference on Data Engineering, Japan, April 2005.
  5. Ihab F. Ilyas and Walid G. Aref. Rank-aware Query Processing Tutorial, the 9th International Conference on Extending
    Database Technology (EDBT), Heraklion - Crete, Greece, Mar. 2004.

5 BIOGRAPHIES

        Abdullah-Al-Mamun 是普渡大学计算机科学系的博士生。他的研究兴趣是数据库系统(DB)+机器学习(ML):“ML for DB”和“DB for ML”。特别是,他对学习的多维和空间索引领域感兴趣。此前,他在纽芬兰纪念大学完成了CS理学硕士学位,并在该校担任研究生院院士。
        Hao Wu 是普渡大学的一名高年级本科生,主修数据科学、统计数学和航空管理。他对面向ML的研究及其在数据驱动的多学科项目中的应用感兴趣。
        Walid G. Aref 是普渡大学计算机科学教授。他的研究兴趣是扩展数据库系统的功能以支持新兴应用,例如空间、时空、图形、生物和传感器数据库。他还对查询处理、索引、数据流和地理信息系统(GIS)感兴趣。Walid的研究得到了国家科学基金会、国家卫生研究院、普渡研究基金会、CERIAS、松下和微软公司的支持。2001年,他获得了国家科学基金会的职业奖,2004年,他获得了普渡大学教师学者奖。瓦利德是普渡CERIAS的成员。他是空间算法和系统ACM事务(ACM TSAS)的主编,《空间信息科学杂志》(JOSIS)的编辑委员会成员,并曾担任VLDB杂志和数据库系统ACM事务(ACM TODS)的编辑。Walid获得了多项最佳论文奖,包括2016年VLDB十年最佳论文奖。他是IEEE的研究员,也是ACM的成员。2011年至2014年,Walid担任ACM空间信息特别兴趣小组(SIGSPATIAL)主席。

6 ACKNOWLEDGEMENTS

        Walid G.Aref感谢美国国家科学基金会在III-1815796和IIS-1910216号赠款下提供的支持。

REFERENCES

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值