Continuously Adaptive Similarity Search

相似性搜索是许多数据分析技术的基础,包括k近邻分类和离群点检测。大数据集上的相似性搜索依赖于i)从输入示例中学习的距离度量和ii)基于学习到的距离度量的索引来加速搜索。在交互式系统中,指导学习距离度量的输入可能会随着时间的推移而提供。因为新的输入改变了学习到的距离度量,所以简单的方法会在每次度量变化后重新索引所有项,这一过程代价很高。本文提出了第一个解决方案OASIS,在没有这种令人禁止的重新索引过程的情况下,即时调整索引以符合不断变化的距离度量。为实现这一目标,证明了局部敏感哈希(LSH)提供了不变性,这意味着建立在原始距离度量上的LSH索引在支持使用更新的距离度量进行相似性搜索方面同样有效,只要为新距离度量学习的变换矩阵满足某些属性。在大多数情况下,这种观察允许OASIS避免重新计算索引。此外,对于极少数需要调整LSH索引的情况,设计了一种高效的增量LSH更新策略,只重新散列索引中的一小部分项。开发了一种有效的距离度量学习策略,在接收到输入时增量地学习新的度量。在真实世界公开数据集上的实验研究证实了OASIS在提高各种基于相似性搜索的数据分析任务的准确性方面的有效性,通过即时调整距离度量及其相关索引,同时实现了比最先进技术最高3个数量级的加速。

 

 

针对新的相似度示例(例如,用户标签)不断出现的场景,需要更新相似度度量和相关索引。 

 

 4 CONTINUOUS DISTANCE METRIC LEARNING

在本节中,我们将展示在各种基于相似性搜索的应用中,如何将不同类型的相似度示例以四重格式编码为距离约束(第4.1节)。在第4.2节中,我们将介绍一种增量距离度量学习策略,使用距离约束作为输入。这种通用方法适用于各种应用。 

4.2 Incremental Learning Strategy 

5 LOCALITY SENSITIVE HASHING: INVARIANCE OBSERVATION 

在本节中,我们将建立LSH的不变性观察即在许多情况下,当距离度量发生变化时,根本不需要更新LSH指数。也就是说,我们将展示建立在欧氏距离上的LSH索引,只要其变换矩阵𝑀的特征值落入一定的范围,就足以支持学习到的距离度量下的相似性搜索。 

'

阅读者总结:创新点:1)学习距离度量方法  2)考虑了两个向量之间的增量计算 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值