NFL: Robust Learned Index via Distribution Transformation

年来关于学术索引的研究工作为索引领域开辟了一个新的方向。学习索引的关键洞察是用分段线性函数近似键和位置之间的映射。这种方法需要分区键空间以获得更好的近似。虽然提出了许多启发式算法来提高近似质量,但瓶颈是分割开销可能会影响整体性能。本文通过在构造学习索引之前对键进行分布变换来解决近似问题。提出了一种基于归一化流的两阶段学习索引框架(NFL),该框架首先将原来复杂的密钥分布转化为近似均匀的分布,然后利用转换后的密钥构建学习索引。为了有效地进行分布变换,我们提出了一种数值归一化流(Numerical Normalizing Flow, NF)。基于转换后的键的特点,我们提出了一个鲁棒的后流学习索引(AFLI)。为了验证性能,我们对合成工作负载和真实工作负载进行了综合评估,结果表明,与最先进的学习指标相比,拟议的NFL产生了最高的吞吐量和最低的尾延迟。

背景:

这些学习索引的关键洞察是将线性模型视为分段线性函数来近似累积分布函数(CDF)。为了获得良好的逼近,现有的学习索引提出了各种分割方法。然而,这种启发式分割不仅会增加额外的时间和空间开销,而且在算法和支持操作的设计上都需要付出大量的努力。

方法:

在这项工作中,我们提出了一种新的方法,在构造学习索引之前,将原始的键转换为一个近似一致的键空间,使学习索引能够更好地逼近CDF。这种分布变换从根本上解决了近似问题,并显著提高了学习指标的所有方面的性能。归一化流(NFs)[8,34],作为生成模型家族,可以用于执行分布转换。

为了实现分布转换的目标,我们提出了一个两阶段归一化-流学习指数框架(NFL),包括用于分布转换的数值归一化流(Numerical NF)和用于CDF逼近的鲁棒后流学习指数(AFLI)。提出的NFL不是直接分割CDF曲线,而是首先利用Numerical NF将原始密钥转换为近似均匀分布的密钥,从而使CDF曲线大致上变为线性。然后,基于转换后的键值,所提出的AFLI可以对转换后的CDF进行较好的逼近。此外,我们还提出了一种新的冲突度度量来评价数值NF的转换质量。

在对数值NF进行转换后,考虑到转换后的键的特点,所提出的AFLI只需要一个简单有效的结构来处理局部冲突,在吞吐量和尾延迟方面都具有较好的性能。在AFLI中,我们用简单的建模操作取代了现有学习索引中复杂而昂贵的调整,这将一个密集的数组变成了一个基于模型的节点 

NFL: THE NORMALIZING-FLOW-LEARNED INDEX FRAMEWORK 

 图4显示了NormalizingFlow-Learned Index框架(NFL)的结构和工作流程。该框架由两部分组成:用于分布变换的归一化流和用于CDF近似的学习指标。输入键首先输入到正态化流中,将它们转换为一个近乎均匀的分布。然后使用所有转换后的键在学习到的索引中建立线性模型。由于批量请求(例如,批量查询,批量插入)在现代数据库中是常见的情况[14,15,28,29,33],我们的NFL也批量处理请求。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值