DSH: Data Sensitive Hashing for High-Dimensional k-NN Search

DSH: Data Sensitive Hashing for High-Dimensional k-NN Search

在许多应用中,需要在多维和高维空间中定位与给定查询点相关的k近邻数据点。因此,为这种搜索提供高效的支持是至关重要的。局部敏感哈希(Locality Sensitive Hashing, LSH)是一种有效的高维相似性搜索哈希方法。然而,由于数据集在空间上的分布不均匀,导致LSH的桶分布不均衡,导致LSH算法性能下降。

本文提出了一种新的高效的数据敏感哈希(Data Sensitive Hashing, DSH)方法来解决这个问题。DSH改进了哈希函数和哈希族,与目前大多数以索引和查询策略为主的哈希方法是正交的。DSH利用数据分布,能够直接保持最近邻关系。给出了DSH算法的理论保证,并通过实验验证了算法的有效性。 

 一研究问题:

1)对于k-NN搜索,LSH在均匀数据分布环境下表现良好,可以推导出高质量的r。当数据有偏差时,k-NN对之间的距离可能会有很大的差异,使用一致的r来定义所有相似点是不够的。

2)在索引级别,我们看到哈希是不平衡的,其中一些桶是空的,而一些桶包含太多的点。

二.研究内容

DSH的基本思想是对数据点进行哈希,使得kNN对(单向或双向)发生碰撞的可能性比非k- nn对高得多。它遵循与LSH相似度搜索相同的过程,关键差异在于对应的哈希族。与具有大概率将距离r内的对象哈希到一起的随机投影相比,我们的哈希家族需要具有大概率将k-NN对哈希到一起。 

为了找到这样的哈希族,我们从数据中学习。由于我们期望每个k-NN对在大多数散列函数中发生碰撞,因此对散列族的需求可以表示为一个强大的分类器。显然,在分离所有非k-NN对的同时,单一的散列函数并不能保护所有的k-NN对。使用谱技术,我们可以在保留k-NN对的同时削减其他的k-NN对。自适应boosting[8]算法是一种利用一组弱分类器生成强分类器的有效算法。因此,我们将哈希函数族作为强分类器,哈希函数族中的每个哈希函数作为弱分类器。我们采用自适应的boosting技术来确保k-NN关系在理论上得到大多数哈希函数的保护。 

DATA SENSITIVE HASHING 

介绍了数据敏感哈希(Data Sensitive Hashing, DSH)的基本概念和原理,提出了DSH-basic和DSH-relaxed两个变种哈希族 

 

 SH FAMILY GENERATION

我们首先学习好的原子散列函数,然后使用boosting来获得更好的散列函数集合,就像我们在本节中描述的那样。

 

 DSH的原理是利用分布知识,而不是根据特定点调整哈希函数。基于查询分布,我们只寻求采样查询的DSH族的性质。每个抽样查询都应该达到高查全率和高效率。当查询分布难以估计时,仍然可以使用均匀查询分布来覆盖所有潜在的查询。在实验部分,我们发现得到的结果对查询分布或k的值不是很敏感,但是它们强烈地依赖于数据分布。

1)Single Hash Function Optimization

2)Adaptive Boosting for DSH-basic 

当权重被指数级调整时,总权重也会指数级降低。经过对数步数后,总权重降低到小于单个示例的初始权重,此时每个示例的权重都小于其初始权重,因此分类良好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值