学习索引
文章平均质量分 72
学习索引
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
Effectively Learning Spatial Indexes with a Support for Updates
本文工作迈出了使用机器学习构建更好的r树的第一步,相信它将为未来的工作打开几个方向:1)进一步探索和完善状态、动作和奖励信号的设计;该模型要能够和R树的实际情况结合起来,实现子树划分以及子节点的分裂,当然这种考虑在其他的索引树中也存在。开发了基于强化学习(RL)的模型,以决定在构建和更新r树时如何选择用于插入的子树以及如何分裂节点,而不是依赖于r树及其变体目前使用的手工设计的启发式规则。本文提出了一种完全不同的方法,使用ML技术来构建更好的r树,而不需要改变传统r树的结构或查询处理算法。原创 2023-02-24 15:55:28 · 46 阅读 · 0 评论 -
DBA bandits: Self-driving index tuning underad-hoc, analytical workloads with safety guarantees
综合经验结果表明,与最先进的商业调优工具相比,移动和临时工作负载的速度可提高75%,静态工作负载的速度可提高28%,与深度RL替代方案相比,速度可提高58%。自动化物理数据库设计一直是数据库研究的长期兴趣,这是由于优化结构所带来的显著性能提升。尽管取得了重大进展,但当今的大多数商业解决方案都是高度手动的,需要数据库管理员(dba)离线调用,dba需要识别并提供有代表性的培训工作负载。MABs 采取行动(选择指标)来最大化累积回报,权衡探索未尝试的行动和利用迄今观察到的回报最大化的行动(见图1)。原创 2023-03-20 13:59:19 · 55 阅读 · 0 评论 -
Buffer Pool Aware Query Scheduling via Deep Reinforcement Learning
调度策略被表示为一个函数Q(St, At),它输出在缓冲状态St上执行操作At(即接下来要执行的查询)的Q值,给定状态St和操作At, Q值Q(St, At)是通过将未来缓冲状态可获得的最大奖励与实现当前缓冲状态的奖励相加来计算的,从而通过潜在的未来奖励有效地影响当前调度决策。我们的系统模型如图1所示。query比较多的情况下,这种调度的效果才明显,所以一般情况下的查询,可能使用强化学习实现调度方法,效果并不一定好。从实验结果看出,查询时间,命中率都是这查询query数量的增加,比其他方法,效果上都要好。原创 2023-03-20 11:34:59 · 39 阅读 · 0 评论 -
Learned Index: A Comprehensive Experimental Evaluation
为了解决这些问题,本文详细回顾了现有的学习索引,并讨论了学习索引中关键组件的设计选择,包括键查找(预测键位置的位置推断,如果预测的位置不正确则重新搜索位置的位置优化),键插入,并发和批量加载。然而,像XIndex和FINEdex这样的学习索引获得了较大的索引大小和较高的插入/查找延迟,因为它们使用额外的空间(例如,对级缓冲区)来支持并发操作,这可能会减慢插入/查找操作,因为搜索同时涉及索引和缓冲区。此外,对于高度倾斜的插入数据,学习索引的插入性能下降很大,而传统索引的插入性能更稳定。原创 2023-04-30 12:26:59 · 118 阅读 · 0 评论 -
SLOTH: Structured Learning and Task-based Optimization for Time Series Forecasting on Hierarchies
层次时间序列预测,主要针对的是多元时间序列中,各个序列能够形成一个层次结构的场景,层次结构中,满足父节点的序列值等于其子节点序列值之和。整体的优化目标是最小化预测误差,同时要求预测结果满足和约束,这是一个典型的带约束的最优化问题,文中直接将其转换成拉格朗日对偶形式求解,并加了一个OptNet层实现网络中的梯度更新。整体结构如下图,对于每一层的节点表示,都拼接其父节点的表示,形成一个矩阵,然后使用一维卷积,对表示进行融合。约下层的节点,粒度越细,噪声越大,序列规律性越差,但是信息含量丰富。原创 2023-05-25 11:21:38 · 129 阅读 · 0 评论 -
NEIST: A Neural-Enhanced Index for Spatio-Temporal Queries
NEIST主要由三个部分组成:轨迹预测模型、轨迹后缀树索引和基于时隙的tpr树(TS-TPR)。1)它的现有轨迹被用作神经模型的输入,神经模型将生成对轨迹的预测。如果一个新对象与由后缀树索引的对象具有相似的轨迹,我们直接返回预测结果,这大大减少了预测开销。为了减少预测开销,进一步构建后缀树来索引具有相似后缀的轨迹,从而将给定相似性范围内的相似对象分组在一起以共享相同的预测结果。三个关键点:1)是神经网络轨迹预测。3)将神经模型或后缀树索引生成的预测结果插入到TS-TPR中,以回答预测的时空查询。原创 2023-07-13 23:51:03 · 116 阅读 · 0 评论 -
智能数据库学习型索引研究综述
RMI 模型采用自上而 下的方式构造,其中,根模型只包含一个模型,由 整个数据集训练而成. 具体地,根模型将数据集划 分成多个子集,每个子集表示一个分段. 然后,对 每个分段重新训练模型,直到训练完所有分段为止. 如果分段模型拟合效果较差,则继续划分分段,直 到模型可以拟合最小范围内的数据分布,成为叶模 型为止.由于 RMI 模型根据键的数量均匀地划分数据集,因此,它无法 确定模型在每个数据分段上的最大误差. 如果模型 预测误差很大,则本地搜索的代价将会很高.(最小范围是 0,最大范围是磁盘页的大小)原创 2023-07-13 21:39:34 · 8 阅读 · 0 评论 -
Packing R-trees with Space-filling Curves: Theoretical Optimality, Empirical Efficiency
在大数据时代,大量的数据和各种各样的数据分布要求访问方法在查询处理和索引管理方面都是高效的,并且在实际和最坏的工作负载下都是高效的。我们首先通过索引树中数据点的z顺序值(除了它们的mbr),将大容量加载的r树转换为仅删除结构。该算法的关键思想是分配数据点(或树节点的mbr),使机器可以在每轮并行计算中批量加载最终r树的O(logB s)级。我们的目标是将P存储在一个结构中,以便在最坏的情况下可以有效地回答所有窗口查询。实验表明,我们的r树在查询不同分布的真实数据和合成数据方面都是高效的。原创 2023-07-05 16:05:07 · 74 阅读 · 0 评论 -
Efficiently Learning Spatial Indices
在超过1亿个点的真实数据集上的实验表明,ELSI可以在不影响查询效率的情况下,一致地减少四种不同的学习空间索引的构建时间(最多减少两个数量级)。由于学习空间索引所需的模型训练成本很高,因此通过模型训练和再训练的方式在大数据集上高效地构建和重建已学习的空间索引是一项挑战。方法scorer的关键元素是两个ffn(图4中的组件2),一个估计方法P的索引构建成本,用CB(·)表示,另一个估计方法P构建索引的查询成本,用CQ(·)表示。这些方法并不构建新的索引类型,而是构建(或找到)类似于输入数据集D的小数据集。原创 2023-07-05 14:06:56 · 90 阅读 · 0 评论 -
WISK: AWorkload-aware Learned Index for Spatial Keyword Queries
WISK: AWorkload-aware Learned Index for Spatial Keyword Queries空间对象通常带有文本信息,如兴趣点(point of Interest, poi)及其描述,这被称为地理文本数据。为了检索此类数据,同时考虑空间邻近性和文本相关性的空间关键词查询被广泛研究。现有的空间关键词查询索引大多是基于地理文本数据建立的,没有考虑已有查询的分布情况。然而,已有研究表明,利用已知的查询分布可以改进索引结构,为未来的查询处理提供支持。本文提出WISK,一种用于空间关原创 2023-03-07 14:24:26 · 171 阅读 · 0 评论 -
AutoIndex: An Incremental Index Management System for Dynamic Workloads
第三,它们无法估计索引维护成本,该成本受到多种索引利用率因素的影响,会显著影响索引收益,特别是在高写比的工作负载下。为了表示索引空间并进行增量索引管理,构建了一棵策略树,其中根表示初始索引集(例如,主列、不同的列),其他节点表示所有可能的索引组合。在生成候选索引集后(与选择任何使用的列作为索引相比),该索引集的大小大大减小,利用MCTS用策略树中的候选索引更新现有索引集。每当该模块检测到异常状态(例如,性能回归)时,它将调用索引分析组件来决定是否需要更新现有的索引(例如,删除冗余索引,创建有益的索引)。原创 2022-10-30 15:37:22 · 4 阅读 · 0 评论 -
Are Updatable Learned Indexes Ready?
近年来,大量研究表明可更新学习索引比传统索引具有更好的性能和更低的内存消耗。但是,在数据分布和并发级别不断变化的现实工作负载下,这些学习到的索引如何相互比较,以及与传统索引的比较是未知的。目前还不清楚这些结果(即,哪种类型的索引在哪种场景下表现更好)如何扩展到四个具体的数据集之外,这导致了一个问题:一个学习到的索引在各种数据上的表现是否仍然优于所有传统索引?从三个方面考察了可更新的学习索引:(1)数据(从易到难),(2)工作负载(从只读到只写),以及(3)并发(从单线程/单套接字到多线程/NUMA)。原创 2022-10-16 13:37:39 · 8 阅读 · 0 评论 -
CARMI: A Cache-Aware Learned Index with a Cost-based Construction Algorithm
具体而言,我们引入熵作为度量来量化和表征学习指标中树节点数据划分的有效性,并提出了一种新的成本模型,为未来的研究奠定了新的理论基础。此外,由于内存访问限制rmi的性能,在CARMI中还应用了一种新的缓存感知设计,充分利用CPU缓存的特性,有效地减少内存访问次数。对于CARMI的内存布局,我们有两个主要数组,𝑑𝑎𝑡𝑎和𝑛𝑜𝑑𝑒,以帮助实现我们的缓存感知设计。这样的设计,我们只需要一次内存访问就可以获得元数据来确定下一个数据块,并将最后一英里的搜索范围缩小到256字节,有效地减少了对真实世界数据集的内存访问。原创 2022-10-07 11:10:35 · 5 阅读 · 0 评论 -
NFL: Robust Learned Index via Distribution Transformation
本文提出了一种新的方法,在构建学习索引之前,将原始键转换到接近均匀的键空间,使学习的索引可以对CDF进行更好的逼近。在AFLI中,用简单的建模操作取代了现有学习索引中复杂和昂贵的调整,将密集数组变成了基于模型的节点。提出了一种基于两阶段归一化流的学习索引框架(NFL),首先将原始复杂的密钥分布转换为近似均匀的分布,然后利用转换后的密钥建立学习索引。为了验证性能,在合成和真实的工作负载上进行了全面的评估,与最先进的学习索引相比,所提出的NFL产生了最高的吞吐量和最低的尾延迟。本文从另一个角度解决近似问题。原创 2022-09-18 16:46:18 · 8 阅读 · 0 评论 -
Faster and Better Solution to Embed Metrics by Tree Metrics
如图1所示,HST的一个内部节点(例如𝑢2)对应于点集𝑉的一个子集(例如𝑝2-𝑝6),而根在这个内部节点上的子树可以被视为子空间(例如({𝑝2,···,𝑝6},𝐷𝑖𝑠))的一个HST。然而,我们观察到:(1)在许多应用HSTs的应用中,只使用了𝐿𝑝指标(如欧几里得空间),(2)最先进的解决方案在为大规模数据构建HSTs时仍然耗时,(3)现有算法的失真仅对高维数据令人满意。我们的目标是设计一个比𝑂(𝑛2)更快的算法,以构建不仅具有𝑂(log𝑛)失真保证,而且具有良好和鲁棒的经验结果的HSTs。原创 2022-09-16 10:54:07 · 4 阅读 · 0 评论 -
HAP: An Efficient Hamming Space Index Based on Augmented Pigeonhole Principle
采用提供了一个潜在的更严格的过滤条件。为了最大化APP的剪枝能力,将现有的代价模型[33]扩展到维度重叠的通用环境,并利用维度相关性和历史查询负载设计了一个实用的维度划分策略。HAP框架,包括范围查询处理和成本模型(第5.1节),初始维度划分算法(第5.2节),成本估计器SimCardNet(第5.3节),以及基于预测的𝑘NN查询处理算法(第5.4节)。在我们的工作中,我们通过允许维度冗余来放松不相交的分区约束,从而产生一个更紧密的修剪边界,称为增强鸽子洞原理(Augmented鸽子洞原理,APP)。原创 2022-09-15 13:49:53 · 8 阅读 · 0 评论 -
BLISS: A Billion scale Index using Iterative Re-partitioning
BLISS需要比HNSW少100倍的RAM,使其适合于普通机器上的内存,同时在相同的召回情况下,推理时间与HNSW相似。BLISS是数据和模型并行的,使其成为训练和推理的分布式实现的理想选择。以XML为例,BLISS超过了最佳基线的精度,同时在具有50万个类别的流行多标签数据集上的推理速度快了5倍。正如我们在后面的第4节中所看到的,我们只需要一个很小的𝐾(原创 2022-08-22 17:49:46 · 595 阅读 · 0 评论 -
Learned Index on GPU(ICDE2022)
3) GPU具有层次化的存储空间和独特的高效访存方式,因此需要考虑当前学习到的索引结构在GPU体系结构中的适应性。阅读者总结:这篇论文的核心是将GPU和PGM-index结合起来,总体上更加偏向工程实现,在学习索引的设计上明显地没有看出什么新颖点,当然了GPU是适合并发线程的计算过程,加速查询,但是这学习索引问题本身的解决上 没有什么多的贡献。根据近年来对学习索引的研究,提出了一种将GPU和学习索引的优势相结合的新思路,将学习索引放在GPU内存中,充分利用GPU的高并发和计算能力。...原创 2022-08-03 12:07:09 · 252 阅读 · 0 评论 -
RW-Tree: A Learned Workload-aware Framework for R-tree Construction(ICDE2021)
为了应对这些挑战,提出了一种基于学习的r-树构建框架,以解决负载敏感的r-树构建问题。其次,考虑到插入的分布,设计了一个代价模型来描述不同插入选择的收益(即查询执行时间),并从中选择最佳的插入。其次,对于给定的工作负载,如何衡量插入选择对工作负载的好处是一个挑战(C2)。传统的测量方法(例如,区域扩大)并不合适,因为它们不能很好地表示查询的执行时间。第三,空间查询并不局限于范围搜索查询,kNN查询也是一个重要的查询,因此如何在工作负载中同时考虑这两个查询是另一个挑战(C3)。现有的作品可以分为两类。...原创 2022-07-21 21:12:26 · 211 阅读 · 0 评论 -
Effectively Learning Spatial Indices(VLDB)
机器学习,尤其是深度学习,被越来越多地用于更好地解决数据管理任务,这些任务以前是通过其他方法解决的,包括数据库索引。最近的一项研究表明,神经网络不仅可以学习预测与一维搜索键相关的数据值的磁盘地址,而且还可以超过基于b树的索引,从而有望加快大量依赖b树进行高效数据访问的数据库查询。研究二维空间数据索引的学习问题。神经网络的直接应用是没有吸引力的,因为空间点数据没有明显的顺序。相反,我们引入了一种基于秩空间的排序技术来建立点数据的排序,并将点分组为块进行索引学习。为了实现可伸缩性,我们提出了一种递归策略,该策略原创 2022-07-04 12:26:17 · 456 阅读 · 0 评论 -
关于学习索引的总结
Flood是一个基于内存读取优先的多维索引,它通过联合优化索引结构和数据存储布局来自动适应特定的数据集和工作负载。Flood应用投影方法(space filling curve)将多维数据映射到1-d空间中,然后利用RMI实现多层递归索引。LISA(Learned Index structure for Spatial dAta) 使用机器学习模型,通过几个精心设计的步骤,为任意空间数据集在磁盘页面中生成可搜索的数据布局. LISA由四部分组成:1)网格单元的表示,2)部分单调映射函数M(将空间键映射到一维原创 2022-07-03 21:28:16 · 724 阅读 · 0 评论 -
The PGM-index: a fully-dynamic compressed learned index with provable worst-case bounds
我们给出了第一个学习到的索引,它支持在最坏情况下可证明有效的时间和空间范围内的前任、范围查询和更新。在仅使用前任和范围查询的(静态)上下文中,这些边界是最优的。我们称之为分段几何模型索引(PGM-index)。它的灵活设计允许我们引入三种变体,这在学习过的数据结构中是新颖的。PGM-index的第一个变体能够适应查询操作的分布,因此产生了迄今为止第一个已知的可感知分布的学习索引。第二种变体利用了在组成pgm -索引的学习模型级别上可能存在的重复性,进一步压缩了它简洁的空间占用。第三种是pgm索引的多标准变体原创 2022-06-13 11:53:48 · 322 阅读 · 0 评论 -
Updatable Learned Index with Precise Positions(VLDB2022)
在现代数据库引擎中,索引在加速查询处理方面起着至关重要的作用。“学习索引”的新范式极大地改变了DBMS中索引结构的设计方式。关键的见解是,索引可以被视为预测数据集中查找键位置的学习模型。虽然这类研究在查找时间和索引大小方面都显示出良好的结果,但它们不能有效地支持更新操作。尽管最近的研究提出了一些支持更新的初步方法,但它们是以牺牲查找性能为代价的在本文中,我们提出了一个全新的学习索引框架LIPP来解决这一问题。与最先进的学习索引结构类似,LIPP能够支持各种索引操作,即查找查询、范围查询、插入、删除、更新和批原创 2022-06-13 11:52:29 · 435 阅读 · 0 评论 -
Spatial Interpolation-based Learned Index for Range and kNN Queries(SSTD 21)
最近的一项研究表明,学习到的索引可以提高查询性能,同时减少存储开销。它为解决基于位置的服务激增所带来的空间查询处理挑战提供了潜在的机会。虽然已经提出了几种学习索引来处理空间数据,但这些方法背后的主要思想是利用现有的一维学习模型,这需要将空间数据转换为一维数据,或在单个维度上单独应用学习模型。因此,这些方法不能充分利用或利用原始空间数据的空间分布信息。为此,在本文中,我们利用空间(多维)插值函数作为学习模型,它可以直接用于空间数据。具体来说,我们设计了一个高效的基于空间插值函数的网格索引(SPRIG)来处理范原创 2022-06-13 11:52:03 · 152 阅读 · 0 评论 -
学习索引: 现状与研究展望
摘 要: 索引是数据库系统中用于提升数据存取性能的主要技术之一.在大数据时代,随着数据量的不断增长,传 统索引(如 B+树)的问题日益突出:(1)空间代价过高.例如,B+树索引需要借助 O(n)规模的额外空间来索引原始的数 据,这对于大数据环境而言是难以容忍的.(2)每次查询需要多次的间接搜索.例如,B+树中的每次查询都需要访问从 树根到叶节点路径上的所有节点,这使得 B+树的查找性能受限于数据规模.自 2018 年来,人工智能与数据库领域的 结合催生了“学习索引”这一新的研究方向.学习索引利用机器学习技术原创 2022-06-12 16:14:55 · 1127 阅读 · 0 评论 -
LHist: Towards Learning Multi-dimensional Histogram for Massive Spatial Data
在大型空间数据库中,数据摘要被广泛应用于提高查询处理速度。多维直方图作为最流行的空间数据概要之一,已经被现代数据库管理系统和分析系统研究和采用几十年了。然而,现有的MH构建技术高度依赖于专家知识和统计假设,使得它们很难在不同的数据集上取得一致令人满意的性能。受新兴的学习索引技术的启发,本文提出了一种学习数据摘要技术——学习多维直方图(learned多维直方图),该技术广泛使用的索引结构如b树,可以通过集成简单的机器学习模型来进一步改进。与传统的数据概要技术相比,LHist是完全数据驱动的,易于实现,并有可能原创 2022-06-11 00:02:24 · 141 阅读 · 0 评论 -
LIDUSA – A Learned Index Structure for Dynamical Uneven Spatial Data
针对现有学习索引难以随数据变化而动态调整的问题,提出了一种面向动态不均匀空间数据的学习索引结构(LIDUSA)。针对稀疏区域KNN查询性能较差的问题,LIDUSA可以通过合并和拆分相应的网格单元来动态调整数据布局,并重新学习该区域的映射函数,使存储在相邻稀疏网格单元中的数据点也存储在相邻磁盘页面中。它结合了树形索引可以动态调整的优点和学习索引的优点。在本文中,在真实数据集和合成数据集上进行了大量的实验。从实验结果可以看出,在KNN查询场景下,LIDUSA索引的速度是现有索引的两倍,这将大大扩展学习索引的适用原创 2022-06-13 11:51:12 · 112 阅读 · 0 评论 -
Benchmarking Learned Indexes(VLDB2021)
最近学习索引结构的进步建议用近似学习模型来替代现有的索引结构,比如b树。在这项工作中,我们提出了一个统一的基准,它将三种已经学习过的索引结构的优化实现与几种最先进的传统基准进行比较。通过使用四个真实的数据集,我们证明了在内存中只读工作负载下,学习索引结构在密集数组上的性能确实优于非学习索引。我们研究了缓存、流水线、数据集大小和密钥大小的影响。我们研究了学习的索引结构的性能,并建立了一个解释为什么学习的模型能取得如此好的性能。最后,我们研究了学习索引结构的其他重要特性,例如它们在多线程系统中的性能和构建时间。原创 2022-06-11 00:18:10 · 412 阅读 · 0 评论 -
Learned Index for Spatial Queries(MDM2019)
随着基于位置服务(LBS)的普及,空间数据处理在数据库系统管理研究中受到了广泛关注。在各种空间查询技术中,索引结构在数据访问和查询处理中起着关键作用。然而,现有的空间索引结构(如R-tree)主要集中于对数据空间或数据对象进行分区。在本文中,我们探索了通过学习数据分布来构建空间索引结构的潜力。我们设计了一种新的数据驱动的空间索引结构,即学习z阶模型(ZM)索引,它结合了z阶空间填充曲线和阶段学习模型。在真实数据集和合成数据集上的实验结果表明,我们学习的索引在大多数情况下都比R-tree更有效地降低了内存成本原创 2022-06-10 09:57:14 · 229 阅读 · 0 评论 -
Learning Multi-dimensional Indexes
扫描和过滤多维表是现代分析数据库引擎中的关键操作。为了优化这些操作的性能,数据库通常在单一维度或多维索引(如r - tree)上创建聚集索引,或使用复杂的排序顺序(如z -排序)。然而,这些模式通常很难调优,而且它们在不同的数据集和查询上的性能不一致。在本文中,我们引入了一种多维内存读优化索引Flood,它通过联合优化索引结构和数据存储布局来自动适应特定的数据集和工作负载。在现实世界的数据集和工作负载上,与最先进的多维索引或排序顺序相比,Flood在范围扫描方面的性能提高了3个数量级。我们的工作是构建一个端原创 2022-06-10 09:56:48 · 407 阅读 · 1 评论 -
A Learned Index for Exact Similarity Search in Metric Spaces
索引是在大型数据库中支持高效查询处理的一种有效方法。近年来,学习索引的概念被积极探索,以机器学习模型取代或补充传统的索引结构,以降低存储和搜索成本。然而,在高维度量空间中,精确高效的相似度查询处理仍然是一个开放的挑战。本文提出了一种新的索引方法LIMS,该方法利用数据聚类和基于数据中心的数据转换技术建立学习索引,以便在度量空间中进行高效的相似度查询处理。底层数据被划分为集群,以便每个集群遵循相对统一的数据分布。数据再分配是通过为每个集群使用少量的支点来实现的。相似的数据被映射到进化区域,映射的值是完全序数的原创 2022-06-10 09:56:31 · 202 阅读 · 0 评论 -
CDFShop: Exploring and Optimizing Learned Index Structures(SIGMOD21)
索引是数据管理应用程序的一个关键组件。虽然树状结构(如b -树)已经获得了巨大的成功,但最近的工作表明,由机器学习模型支持的索引结构(学习的索引结构)可以在减少内存占用的情况下实现较低的查找时间。这个演示展示了CDFShop,这是一个探索和优化递归模型索引(RMIs)的工具,这是一种学习过的索引结构。这个演示允许观众成员(1)直观地了解rmi的各种调优参数,以及为什么学习的索引结构可以大大加快搜索,(2)了解如何使用自动优化技术在rmi空间内探索空间/时间权衡。...原创 2022-06-10 09:56:10 · 156 阅读 · 0 评论 -
RadixSpline: A Single-Pass Learned Index
最近的研究表明,学习模型在大小和查找性能方面优于最先进的索引结构。虽然这是一个非常有前途的结果,但现有的学习结构通常执行起来很麻烦,构建起来也很慢。事实上,我们知道的大多数方法都需要对数据进行多次训练。我们引入了RadixSpline (RS),这是一种学习索引,可以在一次数据传递中构建,在大小和查找性能方面与最先进的学习索引模型(如RMI)相比具有竞争力。我们使用SOSD基准来评估RS,并表明它在所有数据集上都取得了具有竞争力的结果,尽管它只有两个参数方法:在这项工作中,我们引入了RadixSpline原创 2022-06-13 11:54:11 · 288 阅读 · 0 评论 -
FITing-Tree: A Data-aware Index Structure
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++1 论文摘要(包括论文动机、创新点或者贡献,论文的结论等)本篇论文主要讲述在数据库中,如何通过数据分布构建分段线性函数,利用key值查到元组存储位置的索引结构。在数据库中,以树为基础的索引结构帮助数据库管理员提升分析和事物装载性能,但是在大量的数据集上进行构建索引会消耗大量的内存,大概会占用55%的可用内存。这样不仅占用内存还限制了新数据的保存和立即处理现用的数据。对原创 2022-06-13 11:52:59 · 610 阅读 · 0 评论 -
Tsunami: A Learned Multi-dimensional Index for Correlated Data and SkewedWorkloads(VLDB21)
基于谓词过滤数据是任何现代数据仓库最基本的操作之一。加速执行过滤器表达式的技术包括聚集索引、专门化排序顺序(例如z顺序)、多维索引,以及对于高选择性查询,二级索引。然而,这些方案很难调优,性能也不一致。最近关于多维索引的研究引入了针对特定数据集和工作负载自动优化索引的思想。然而,当存在相关数据和倾斜的查询工作负载时,这些工作的性能会受到影响,而这两种工作负载在实际应用中都很常见。在本文中,我们引入了海啸(Tsunami),它解决了这些限制,与现有的学习多维索引相比,可以实现最多6个更快的查询性能和最多8个更原创 2022-06-10 09:55:37 · 279 阅读 · 0 评论 -
LISA: A Learned Index Structure for Spatial Data
摘要:在空间查询处理中,目前流行的索引r树可能会造成较大的存储消耗和IO成本。受最近学习的索引[17]用机器学习模型取代b树的启发,我们研究了一个空间数据的类比问题。我们提出了一种新的空间数据学习索引结构(LISA)。其核心思想是使用机器学习模型,通过几个步骤,为任意空间数据集在磁盘页面中生成可搜索的数据布局。具体来说,LISA包含一个映射函数(将空间键(点)映射到一维映射值)、一个学习分片预测函数(将映射空间划分到分片)和一系列本地模型(将分片组织到页面)。在LISA的基础上,设计了一个范围查询算法,并通原创 2022-06-10 09:55:14 · 515 阅读 · 0 评论 -
The Case for Learned Index Structures
索引是模型:B 树索引可以被看作是一个模型,用于将键 (Key) 映射到排序数组中的值记录 (Value) 位置,Hash 索引作为模型将键 (Key) 映射到未排序数组的值记录 (Value) 位置,BitMap 索引作为模型来指示值记录 (Value) 是否存在。 在这个探索性研究论文中,我们从这个前提开始,并假定所有现有的索引结构都可以用其他类型的模型取代,包括我们称为学习索引的深度学习模型。关键的想法是,模型可以学习查找键 (Key) 的排序顺序或结构,并使用这个信息来有效地预测值记录 (Value原创 2022-06-10 09:54:53 · 851 阅读 · 0 评论