相似性搜索是一种基本的算法,广泛应用于计算机科学的许多领域。相似性搜索问题有几种变体,其中最相关的是r-近邻(r- nn)问题:给定半径r ,构造一个数据结构,对于任意给定的查询点q,返回一个距离q不超过r的点p。本文从公平性角度研究r- nn问题。我们从机会均等的角度来考虑公平性:距离查询距离r以内的所有点都应该有相同的概率被返回。在低维情况下,Hu, Qiao, and Tao (PODS 2014)首先研究了该问题。局部性敏感哈希(Locality sensitive hashing, LSH)是高维空间中理论上最强的相似性搜索算法,但它不能提供这种公平性保证。为解决这个问题,本文为r-NN提出了有效的数据结构,其中S中所有靠近q的点都具有相同的概率被选择并由查询返回。首先提出一种黑盒方法,给定任何LSH方案,为查询邻域内均匀采样点构造数据结构。然后,提出了一种基于局部敏感过滤器和近似线性空间的公平内积相似搜索数据结构。本文最后进行了实验评估,强调了在真实数据集上的推荐设置中的公平性,并讨论了通过解决该问题的其他变体而引入的固有不公平性。
Fair Near Neighbor Search: Independent Range Sampling in High Dimensions
最新推荐文章于 2024-06-13 14:43:16 发布