LSH 来自楼下的塘北

最新推荐文章于 2024-10-16 00:00:43 发布

zhangx2008

最新推荐文章于 2024-10-16 00:00:43 发布

阅读量3.1k

点赞数

分类专栏：计算机视觉文章标签：算法 algorithm vb database library image

计算机视觉专栏收录该内容

5 篇文章 0 订阅

订阅专栏

位置敏感哈希:Locality Sensitive Hashing

转自楼下的塘北致谢！http://blog.youtueye.com/work/lsh.html

发表于 2011 年 12 月 30 日由 amadeuzou

前一篇讲到用于高维数据搜索的方法--最近邻搜索，而之于其中的方法是基于树结构的索引（如K-D Tree），当数据维数过大时，其效率同线性扫描。研究人员试图寻找一种在保证一定准确性的前提下，时间和空间复杂度得到降低，并且能够很好地支持高维数据的检索算法，这里介绍的LSH(Locality Sensitive Hashing，位置敏感哈希)便是就这一问题产生的。

简单地讲，LSH建立了一种映射准则：将原始高维数据空间S中的点映射到相对低维空间U，保证S中距离相近的点，其在U中的映射点，也具有较大概率的距离相近，甚至是相等；那么在做搜索时，将查询点做映射，在U中查找与该映射值相近的点；这样，这些查找到的映射点的原象，即是S中与查询点相近的点，因此，这种方法称为是“位置敏感”（Locality Sensitive）的。那么，映射的建立、空间的选择以及空间的度量，是LSH要研究的问题。

如上图所示，空间上的点经位置敏感哈希函数散列之后，对于q，其rNN有可能散列到同一个桶（如第一个桶），即散列到第一个桶的概率较大，会大于某一个概率阈值p1；而其(1+c)rNN之外的对象则不太可能散列到第一个桶，即散列到第一个桶的概率很小，会小于某个概率阈值p2。当然，为了尽可能地减少冲突，可建立多个散列表，每个散列表对应多个桶。(via)

关于LSH的理论及发展，本文按如下线路说开：

1. 原始 LSH

P. Indyk 和 R. Motwani 在 [Indyk & Motwani '98] 中首次提出LSH的概念：

定义：映射 H={h:SU} 对于度量D 关于 (r1,r2,p1,p2) 对 v,qS 是敏感的(Sensitive)，其中 p1>p2,r1<r2 ，满足：

（1）如果 vB(q,r1) , 那么 PrH[h(q)=h(v)]p1

（2）如果 v∉B(q,r2) , 那么 PrH[h(q)=h(v)]p2

其中， vB(v,r) 定义为度量空间 M=(S,d) 中以 vS 为中心， r 为半径的类球体： B(v,r)={qS|d(v,q)r}

这样，只要选择一族这样的映射 G={g:SUk} ， ?g(p)=(h1(p),⋯,hk(p)),hiH ，中的 l 个： g1,⋯,gl ，将 S 中的点集 pP 散列到苦干个桶 gj(p) 中。

2. 实现 LSH

A. Gionis, P. Indyk, R. Motwani 在 [Gionis & Indyk & Motwani '99] 中详细说明了LSH的实现。作者证明LSH可成功解决 Ld1 空间上的 (r,ε)−NN 问题，同时也在概率意义下成功解决了 ε−NN 问题，并保证了查询时间的上界为 O(dn1/(1+ε)) ，而原始LSH算法仅为 O(dn1/ε) 。

注意到 Rd 空间的赋 l1 范数 x−y1=di|xi−yi| 近似于Hamming空间，那么哈希函数可选为从 Rd 空间到Hamming空间的映射。

假设 p 为 Ld1 空间中的向量，且 p 的每一维为非负整数，最大值为 c 。LSH算法建立 l 个散列表，每个散列表 Ti(i=0,⋯,l−1) 包含 M 个存放数据的桶，其中要涉及两个散列函数 gi,hi 。LSH为向量 p 在散列表 Ti 中建立索引的流程如下：

（1）将向量 p 转化为Hamming空间 Hc×d 中的二进制向量 pH （每一维仅为0或1）： pH=Unary(c)(p[0])⋯Unary(c)(p[d−1])
其中， Unary(x) 是将整数 x 转化为 c 维二进制向量，因此向量在Hamming空间 Hc×d 中的距离与在原始空间 Ld1 中的距离保持一致。
（2）将散列函数 gi 作用在 pH 上，得到 p′H=gi(pH) 。
其中，散列函数 gi 为选择 pH 中的 k 个形成一个新的 k 维二进制向量 p′H 。
（3）将散列函数 hi 作用在 p′H 上，得到 Ii=hi(p′H) 。
其中， hi(pH)=(k−1j=0wi,j×p′H[j]) , Wi={wi,1,⋯,wi,k} 是与 hi 相关联的一组系数。
（4）将向量 p 存放到 Ti 的第 Ii 个桶中。