智能数据库学习型索引研究综述(计算机学报)
一.基础介绍
1. Kraska等人将 B 树看作是键映射到记录位 置的一种模型,因此可用机器模型(例如神经网络、 线性回归等)替换.B 树将查询键映射到一个具有误 差约束(最小范围是 0,最大范围是磁盘页的大小) 的范围内,如果查询键在误差约束范围内存在,则 保证一定能够在这个范围内检索到查询键的准确位 置.
2. 采用模型替换 B 树时,需要考虑以下两 点:第一,模型需要提供与 B 树索引相似的误差保 证,才能够保证找到查询键;第二,模型需要解决“最 后一英里搜索”问题,机器学习模型不能够完全拟合 数据的累积分布函数,模型预测误差往往很大,如 果想要实现较小的预测误差则比较困难
3. RMI 模型采用自上而 下的方式构造,其中,根模型只包含一个模型,由 整个数据集训练而成. 具体地,根模型将数据集划 分成多个子集,每个子集表示一个分段. 然后,对 每个分段重新训练模型,直到训练完所有分段为止. 如果分段模型拟合效果较差,则继续划分分段,直 到模型可以拟合最小范围内的数据分布,成为叶模 型为止.
二面临的挑战
(1)最坏情况下的查找性能问题.
由于 RMI 模型根据键的数量均匀地划分数据集,因此,它无法 确定模型在每个数据分段上的最大误差. 如果模型 预测误差很大,则本地搜索的代价将会很高.
(2)动态更新问题. RMI 模型仅支持静态查询,无法处理更新 操作. 因为更新操作容易引起底层数据分布的改 变,一旦数据分布发生改变,RMI 模型的叶模型以 及与其相连的上层模型均需要重新训练,将会产生 昂贵的训练成本
(3)多维学习型索引的工作大 多关注中低维空间数据的静态查询,在动态更新、 不同的查询需求以及更高维数据等方面尚处于空 白,还需要进一步探索和研究.