Fair Near Neighbor Search: Independent Range Sampling in High Dimensions

相似性搜索是一种基本的算法,广泛应用于计算机科学的许多领域。相似性搜索问题有几种变体,其中最相关的是r-近邻(r- nn)问题:给定半径r ,构造一个数据结构,对于任意给定的查询点q,返回一个距离q不超过r的点p。本文从公平性角度研究r- nn问题。我们从机会均等的角度来考虑公平性:距离查询距离r以内的所有点都应该有相同的概率被返回。在低维情况下,Hu, Qiao, and Tao (PODS 2014)首先研究了该问题。局部性敏感哈希(Locality sensitive hashing, LSH)是高维空间中理论上最强的相似性搜索算法,但它不能提供这种公平性保证。为解决这个问题,本文为r-NN提出了有效的数据结构,其中S中所有靠近q的点都具有相同的概率被选择并由查询返回。首先提出一种黑盒方法,给定任何LSH方案,为查询邻域内均匀采样点构造数据结构。然后,提出了一种基于局部敏感过滤器和近似线性空间的公平内积相似搜索数据结构。本文最后进行了实验评估,强调了在真实数据集上的推荐设置中的公平性,并讨论了通过解决该问题的其他变体而引入的固有不公平性。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值