Shortlist Selection with Residual-Aware Distance Estimator for K-Nearest Neighbor Search

本文链接：https://blog.csdn.net/zijin0802034/article/details/52590400

Shortlist Selection with Residual-Aware Distance Estimator for K-Nearest Neighbor Search

简介

CVPR2016的一篇关于KNN搜索的paper。论文的主要贡献就是提出了关于shortlist计算的算法。在倒排索引的检索过程中，主要经过两步。第一：返回候选集。第二，采用更精确的距离度量风方式进行Rerank。可以这样说，候选集合决定了返回结果的下限，第二步的rerank过程中，才决定了检索的上限。所以，关于倒排索引的改进主要有两个策略。Iverted multi-index就是改进了返回候选集，采用了product quantization的方法，将原始的数据集进行更细的划分，通过和聚类中心的比较，然后返回一个shortlist的候选集，然后从候选集中计算距离，返回最小的K的data。但是如果采用原始的高维向量进行计算，将会占据大量内存和CPU时间。例如测试数据Gist960，960维的数据计算距离将是很耗时耗内存。Rerank又是必要的操作，所以采用hash技术或者是量化的方法改进第二步。其中hash技术包括LSH，spectral hash，ITQ等等。量化的方法包括，PQ, OPQ等等。在本篇论文中，作者提出了一种新的量化方法对shortlist进行rerank，并通过实验结果证明效果更好。

算法过程

倒排索引进行改进

在传统的倒排索引中，原始的数据集 $X={x_1,x_2,x_3,......x_n}$ 会经过K-means聚类，生成M个聚类。对于每一个原始的数据，找出离它最近的聚类中心，形成M个Inverted list- $L_1,L_2,L_3,.....L_M$ 。在这里计算距离的时候采用欧式距离。
在本篇论文中，作者提出了一种新的距离计算方法。首先计算原始的数据 $x_i$ 到距离中心 $q(x)$ 的residual distance。首先定义residual distance 为 $r_x$ :

r x = d (x, q (x))

$r_x = d(x,q(x))$
同理，我们定义查询query

y $y$ 与量化距离中心

q(x) $q(x)$ 的距离为

hy,x $h_y,x$ :

h y, x = d (y, q (x))

$h_y,x=d(y,q(x))$
查询query

y $y$ 与原始的数据

x $x$ 的距离可以写成余弦定理的形式：

d (y, x) 2 = h 2 y, x + r 2 x - 2 h y, x r x c o s θ = h 2 y, x + r 2 (1 - 2 h y , x r x c o s θ), (1)

$d(y,x)^2=h_{y,x}^2+r_x^2-2h_{y,x}r_xcos\theta=h_{y,x}^2+r^2(1-\frac{2h_{y,x}}{r_x}cos\theta) ,(1)$

θ $\theta$ 是两个向量

y−q(x) $y-q(x)$ 和

x−q(x) $x-q(x)$ 之间的角度。
我们观察上述公式，

(1−2hy,xrxcosθ) $(1-\frac{2h_{y,x}}{r_x}cos\theta)$ 取决于特定的

x $x$ 和特定的

y $y$ 。我们把

(1−2hy,xrxcosθ) $(1-\frac{2h_{y,x}}{r_x}cos\theta)$ 估算为常量

αK $\alpha_K$ 。现在我们只需要计算

h2y,x $h_{y,x}^2$ 和

r2x $r_x^2$ 。其中

r2x $r_x^2$ 是和查询无关的。

h2y,x $h_{y,x}^2$ 是和查询

y $y$ 有关的。所以上面的公式可以写成下面这种形式：

d^(y, x) 2 = h 2 y, x + α K r 2 x ， (2)

$\hat{d}(y,x)^2=h_{y,x}^2+\alpha_Kr_x^2，(2)$
我们观察

αK $\alpha_K$ 的值。当

αK $\alpha_K$ 为0时，就是传统的距离度量方式。当两个向量正交的时候，

αK $\alpha_K$ 为1，上面的公式就是勾股定理的形式。
但是在实际中，对于任意的向量，并不是所有的向量都会正交。所以，作者提出了一种训练的方法，得到一个和近邻K有关的

αK $\alpha_K$ 。首先从原始的数据集

X $X$ 中随机选出

Ns $N_s$ data{

s1,s2,s3,......sNs ${s_1,s_2,s_3,......s_{N_s}}$ }，然后计算每一个样本

si $s_i$ 的K个最近邻。把样本

si $s_i$ 的第

jth $j^{th}$ 个邻居记为

nji $n_i^j$ 。我们通过随机选取的数据来进行评估

αK $\alpha_K$ 的值。但是这样做会出现overfitting。所以需要从每一个

si $s_i$ 中随机选取另外K的data point，记为{

mi1,mi2,mi3,.......miK ${m_1^i,m_2^i,m_3^i,.......m_K^i}$ }。我们通过下面的公式来计算整个数据集的

αK $\alpha_K$ 的值：

α K = 1 2 K N s \sum i = 1 N s (\sum j = 1 K f (s i, n i j) + \sum j = 1 K f (s i, m i j)), (3)

$\alpha_K = \frac{1}{2KN_s}\sum_{i=1}^{N_s}(\sum_{j=1}^{K}f(s_i,n_j^i)+\sum_{j=1}^{K}f(s_i,m_j^i)),(3)$
这里：

f (y, x) = 1 - 2 h y , x r x c o s θ = d ( y , x ) 2 - h 2 y , x r 2 x

$f(y,x) = 1- \frac{2h_{y,x}}{r_x}cos\theta = \frac{d(y,x)^2-h_{y,x}^2}{r_x^2}$
在训练

αK $\alpha_K$ 的值的时候，需要排除掉数据和聚类中心重合的点，这样做为了避免分母

r2x $r_x^2$ 为0的情况。这里训练的

αK $\alpha_K$ 是和K相关的，当出现新的K值时候，我们可以简单的使用

αK $\alpha_K$ =1来提前计算。实验表明，当使用训练过的

αK $\alpha_K$ 的时候，比默认的值1准确率提高了20%。

建立Lookup Table

在公式(2)中，我们需要计算 $r_x=d(x,q(x))$ 的值和 $h_{y,x}=d(y,q(x))$ 的值。但是如果在运行的时候计算，将会耗时耗内存。并且如果原始的数据进行量化以后，无法通过量化的值来获取原始的点。所以提出了一种新的急算方法。由于 $r_x$ 是和查询无关的，我们可以在线下计算。在这里提出了一种lookup表结构来加速计算的过程。
首先对于每一个 $L_i$ ，我们需要计算原始的数据 $x_i$ 到它的中心 $c_i$ 的距离，然后按照递增的顺序进行排列。然后遍历每一个 $L_i$ ，得到一个最大和最小的距离。

R m = m i n d (x, q (x)) 2, R M = m a x d (x, q (x)) 2

$R_m=mind(x,q(x))^2, R_M=maxd(x,q(x))^2$
然后将区间

[Rm,RM] $[R_m,R_M]$ 平均的划分为Z份。其中每一份的距离为

ΔR=(RM−Rm)/Z $\Delta R=(R_M-R_m)/Z$ 。然后我们定义第j-th区间上界值为

Rj=Rm+jΔR $R_j=R_m+j\Delta R$ 。
我们定义一个lookup表。

W(i,j) $W(i,j)$ 储存每一个倒排索引

Li $L_i$ ，距离平方小于

Rj $R_j$ 的数目。如下所示：

W (i, j) = | {x | d (x, c i) 2 < R j, x \in L i} |, (4)

$W(i,j)=|\{x|d(x,c_i)^2<R_j,x\in L_i\}|,(4)$

|.| $|.|$ 代表集合中的数目。这个lookup表有

O(MZ) $O(MZ)$ 的空间复杂度，并且M和Z都是和数据集无关的。

Shortlist computation

好吧，这里又开始定义了。首先将查询 $y$ 和中心 $c_i$ 的距离平方记为： $h_i^2=d(y,c_i)^2$ 。然后又引入了一个新的函数 $w(y,i,t)$ 来表示在Inverted list $L_i$ 中的数据点与查询 $y$ 的距离小于 $t$ 的数目。

w(y,i,t)=|{x|d^(y,x)2<t,x∈Li}|=|{x|h2y,x+αKr2x<t,x∈Li}|(Eq(2)=|{x|h2i+αKr2x<t,x∈Li}|,(q(x)=ci)=|{x|αKr2x<t−h2i,x∈Li}|=|{x|r2x<(t−h2i)αK,x∈Li}|,(5)

$w(y,i,t)=|\{x|\hat{d}(y,x)^2 < t, x\in L_i\}|\\ =|\{x|h^{2}_{y,x}+\alpha_Kr_x^2<t, x\in L_i\}|(Eq(2)\\ =|\{x|h_i^2+\alpha_Kr_x^2<t,x\in L_i\}|,(q(x)=c_i)\\ =|\{x|\alpha_Kr_x^2<t-h_i^2,x\in L_i\}|\\ =|\{x|r_x^2<\frac{(t-h_i^2)}{\alpha_K}, x\in L_i\}|,(5)$
推导到最后，发现和公式(4)的格式很像，这就对了。当

(t−h2i)/αK $(t-h_i^2)/\alpha_K$ 用

Rj $R_j$ 取代的时候，这就和

W(i,j) $W(i,j)$ 有关了。我们利用建立的

W(i,j) $W(i,j)$ 。可以替换公式(5):

w (y, i, t) = W (i, ⌈ ( t - h 2 i ) / α K - R m Δ R ⌉), (6)

$w(y,i,t)=W(i,\lceil \frac{(t-h_i^2)/\alpha_K -R_m}{\Delta R}\rceil),(6)$
对于每一个查询在距离t以后的所有的点可以计算为

∑Ki=1w(y,i,t) $\sum_{i=1}^Kw(y,i,t)$ 。因为

W(i,j) $W(i,j)$ 是非单调递减的，所以随着t增加，

w(y,i,t) $w(y,i,t)$ 也是非单调递减的。由于这个简单的属性，我们可以使用二分搜索的方法。二分搜索的范围为

[minh2i+αKRm,maxh2i+αKRM] $[minh_i^2+\alpha_KR_m,maxh_i^2+\alpha_KR_M]$ 。当

T<∑Ki=1w(y,i,t) $T<\sum_{i=1}^Kw(y,i,t)$ 满足条件时，搜索终止。

Inverted Multi-index

对于inverted Multi-index的具体介绍，可以参考博客。在数据集中的数据 $x_$ 在第K个子空间的部分，在第K个子空间量化后的值为 $q^k(x^k)=argmin_{c_i^k}d(x^k,x_i^k)$ 。首先定义距离 $r_{x, k}=d(x^k,q^k(x_k))$ ， $h_{k, i}=d(y^k,c^k_i)$ 。
对数据进行进一步处理，第k个中心的 $i^th$ 聚类的数据为： $X_i^k=\{x^k|q^k(x^k)=c_i^k\}$ ，根据距离 $r_{x,k}$ 将 $X_i^k$ 。然后根每一个聚类 $X_i^k$ 划分为P分 $X_{i,1}^k,X_{i,2}^k,X_{i,3}^k,.......X_{i,P}^k$ ，根据 $R_{i,j}^k$ :

X k i, j = {x k | R k i, j - 1 \leq r k x, i < R k i, j, x \in X k i}

$X_{i,j}^k=\{x^k|R_{i,j-1}^k\le r_{x,i}^k<R_{i,j}^k,x\in X_i^k\}$
这里边界值

Rki,.j $R_{i,.j}^k$ 平均的将数据划分为P部分。其中

Rki,0 $R_{i,0}^k$ 和

Rki,P $R_{i,P}^k$ 被设置为子空间最小和最大的距离。这种做法和传统倒排索引的做法相同。
Inverted multi-index划分为

kth $k^{th}$ 个子空间。我们用同样的方法训练

αK,1 $\alpha_{K,1}$ 和

αK,2 $\alpha_{K,2}$ 。我们将

ith $i^{th}$ 聚类也分为

kth $k^{th}$ 个子空间。

Xki={xk|qk(xk)=cki} $X_i^k=\{x^k|q^k(x^k)=c_i^k\}$ 。对于每一个子聚类，划分为P个部分

Xki,1,Xki,2,.......Xki,P $X_{i,1}^k,X_{i,2}^k,.......X_{i,P}^k$ 。

X k i, j = {x k | R k i, j - 1 < r k x, i < R k i, j, x k \in X k i}

$X_{i,j}^k=\{x^k|R_{i,j-1}^k<r_{x,i}^k<R_{i,j}^k,x^k \in X_i^k\}$
残差距离边界

Rki,j也是平均划分为P份， $R_{i,j}^k也是平均划分为P份，$ R_{i,0}^k

和 $和$ R_{i,P}^k$分别代表子空间距离的最小最大值。

在计算距离的时候，如果按照公式(2)的计算方式，那么将会是如下这种形式：

d^(y, x) 2 = d (y 1, q 1 (x 1) 2 + α K, 1 r 2 x, 1 + d (y 2, q 2 (x 2) 2 + α K, 2 r 2 x, 2 ， (8)

$\hat{d}(y,x)^2=d(y^1,q^1(x^1)^2+\alpha_{K,1}r_{x,1}^2+d(y^2,q^2(x^2)^2+\alpha_{K,2}r_{x,2}^2，(8)$
因为Inverted Multi-index的List长度为

k2 $k^2$ 。所以存储

r2x,k $r_{x,k}^2$ 的值不太现实。Inverted Multi-Index的索引长度随着划分的数目增多，指数增加，所以需要提出了一种新的代替residual distance的一种方法。作者提出了一种用平均距离代替的方法如下所示：

r ¯ k, i, j = \sum r x , k | X k i , j |

$\overline{r}_{k,i,j}=\frac{\sum r_{x,k}}{|X_{i,j}^k|}$
替换以后公式(8)新的距离就写成了如下的形式：

d ¯ (y, x) 2 = h 2 1, i 1 + α K, 1 r ¯ 2 1, i 1, j 1                    d ¯ 2 1, i 1, j 1 + h 2 2, i 2 + α K, 2 r ¯ 1, i 2, j 2                    d ¯ 2 2, i 2, j 2

$\overline{d}(y,x)^2=\underbrace{h_{1,i_1}^2+\alpha_{K,1} \overline{r}_{1,i_1,j_1}^2}_{\overline{d}^2_{1,i_1,j_1}}+ \underbrace{h_{2,i_2}^2+\alpha_{K,2}\overline{r}_{1,i_2,j_2}}_{\overline{d}^2_{2,i_2,j_2}}$
当新的查询到的时候，首先计算query和聚类中心

h21,i $h_{1,i}^2$ 和

h22,i $h_{2,i}^2$ 距离。然后我们取出预先计算好的