A Learned Index for Exact Similarity Search in Metric Spaces

索引是在大型数据库中支持高效查询处理的一种有效方法。近年来,学习索引的概念被积极探索,以机器学习模型取代或补充传统的索引结构,以降低存储和搜索成本。然而,在高维度量空间中,精确高效的相似度查询处理仍然是一个开放的挑战。本文提出了一种新的索引方法LIMS,该方法利用数据聚类和基于数据中心的数据转换技术建立学习索引,以便在度量空间中进行高效的相似度查询处理。底层数据被划分为集群,以便每个集群遵循相对统一的数据分布。数据再分配是通过为每个集群使用少量的支点来实现的。相似的数据被映射到进化区域,映射的值是完全序数的。开发机器学习模型来近似每个数据记录在磁盘上的位置。设计了高效的算法,用于处理基于LIMS的范围查询和最近邻查询,以及动态更新的索引维护。在真实数据集和合成数据集上的大量实验表明,与传统索引和最新的学习索引相比,LIMS具有优越性

背景:

与传统的索引方法相比,这些已有的索引方法取得了显著的成功,但也存在一定的局限性。

1)首先,现有的学习索引结构不支持通用度量空间中的相似度搜索。

2)现有的多维指标结构存在“维度诅咒”现象。

3)训练一个能够很好地逼近复杂数据分布的机器学习模型的时间通常很长,这使得学习的索引难以适应频繁的插入/删除操作和查询模式的变化

4)最后,现有的一些学习索引[10]由于机器学习模型的错误而不能返回准确的查询结果。

方案:

我们为度量空间开发了一种新的基于磁盘的学习索引结构,称为LIMS,以促进精确的相似性查询(即点、范围和kNN查询)。与基于坐标的数据划分不同,LIMS采用一种基于距离的聚类策略,将底层数据分组为多个子集,将复杂且可能存在关联的数据分解为分布简单且相对均匀的聚类LIMS为每个簇选择一个小的支点集,并利用到支点的距离进行数据再分配。这减少了数据的维度,以采用的枢轴数。通过使用适当的基于枢轴的映射,LIMS将相似的对象组织成紧凑的区域,并对数据施加总的顺序。这样的组织可以显著减少查询处理期间的距离计算和页面访问次数。

为了进一步提高搜索性能,LIMS遵循学习索引的思想,使用几个简单的多项式回归模型来快速定位可能匹配查询过滤条件的数据记录。此外,由于每个聚类具有独立的索引结构,可以快速地进行部分重构,使LIMS能够适应变化。 正如我们稍后将展示的,在处理高维数据时,就平均查询时间和页面访问次数而言,LIMS明显优于其他多维学习索引和传统索引。

 LIMS由3部分组成:数据聚类和支点选择(第4.3节),基于支点的映射函数和关联的二值关系(第4.2节),以及等级预测模型(第4.2节)。图1概述了与L2norm相关联的度量空间中的索引结构,尽管其他度量空间也适用于LIMS。如图1所示,LIMS首先将底层数据划分为一组簇(例如,绿色和紫色的圆点),以便每个簇遵循相对均匀的数据分布,然后为每个簇选择一组数据相关的轴心。在LIMS中,我们分别为每个集群维护一个学习到的索引结构。以紫色星团为例,LIMS计算星团中每个物体到精心选择的枢轴的距离。为了支持高效的查询,还维护了从每个枢轴到相应对象的最大和最小距离

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值