学习索引结构的概念依赖于这样一种思想:数据库索引的输入-输出功能可以被视为一个预测任务,因此,使用机器学习模型而不是传统的算法技术来实现。从这个新奇的角度研究几十年前的问题,在机器学习和数据结构的交叉领域激发了令人兴奋的结果。然而,学习索引结构的优势,即通过底层ml模型调整手头数据的能力,从安全性角度来看可能成为缺点,因为它可能被利用。
在这项工作中,我们提出了第一个中毒攻击学习索引结构的研究。所需要的中毒方法不同于以往的所有工作,因为受到攻击的模型是在累积分布函数(CDF)上训练的,因此,训练集上的每次注射都对多个数据值产生级联影响。我们对训练在CDF上的线性回归模型进行了第一次中毒攻击,CDF是提出的学习索引结构的基本构建块。我们将中毒技术推广到一种更高级的两阶段学习索引结构设计,称为递归模型索引(RMI),它已被证明优于传统的b -树。我们在模型的各种参数化下评估了我们对真实世界和合成数据集的攻击,表明RMI的误差增加到300,其第二阶段模型的误差增加到3000。