关于学习索引的总结

西西弗的小蚂蚁

已于 2023-03-07 10:30:31 修改

阅读量900

点赞数

分类专栏：学习索引文章标签：大数据

于 2022-07-03 21:28:16 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/125564913

版权

本文总结了多种学习索引技术，如Flood的多维索引优化，LISA的机器学习模型在空间数据上的应用，Tsunami解决的查询倾斜问题，PGM-index和FITing-Tree在动态字典索引的提升，以及ZM和HM模型在空间查询中的应用。此外，还探讨了ALEX、LIPP如何优化查找性能和内存占用，LIDER在大规模密集检索中的高效表现，以及LHist学习多维直方图的技术。这些方法通过结合传统的索引结构和机器学习，提升了数据检索的速度和精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Flood是一个基于内存读取优先的多维索引，它通过联合优化索引结构和数据存储布局来自动适应特定的数据集和工作负载。Flood应用投影方法（space filling curve）将多维数据映射到1-d空间中，然后利用RMI实现多层递归索引。

LISA(Learned Index structure for Spatial dAta) 使用机器学习模型，通过几个精心设计的步骤，为任意空间数据集在磁盘页面中生成可搜索的数据布局. LISA由四部分组成:1)网格单元的表示，2)部分单调映射函数M(将空间键映射到一维映射值)，3)单调分片预测函数SP(预测给定映射值的分片id并将映射空间划分为分片)，4)局部模型(对磁盘页面进行分片内操作)

Tsunami 是一个学习的多维索引，对数据相关性和查询倾斜具有鲁棒性。Tsunami引入了两种模块化数据结构——网格树(grid Tree)和增强网格(Augmented grid)——使其在查询吞吐量和空间性能上分别超过现有的多维索引6倍和8倍

其中Tsunami是解决了LISA中数据相关性和查询偏斜问题。

The PGM-index 是一种用于全动态可索引字典问题的学习数据结构，它提高了查询/更新性能，并将传统和现代学习索引的空间占用提高了几个数量级。基于distribution-aware，compress，multicriteria的PGM-index

FITing-Tree利用数据分布构建分段线性函数，利用key值查到元组存储位置的索引结构。它合并了一个可调的错误参数，以允许DBA平衡查找性能和索引的空间消耗。这