Random walk算法及其各种延伸、应用笔记_random walk图采样算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_44662670/article/details/115448482

Random Walk

随机过程中定义的随机游走是每过一个单位时间，游走点固定向左或向右移动一个单位

推广到多维，一般情况下是：
对于点 $x_0\in R^N$ ,每个单位时间内：

对于图结构的数据，random walk是指，在一张图的任意一个顶点：

这样的游走会以频率的方式体现出graph中每一个顶点被访问到的概率。

随机游走算法可以利用于检测整个图的概率分布，而RWR算法以及它的各种变体:

它的基本思想是：

基于经典文章：Fast RandomWalk with Restart and Its Applications

符号定义：
在这里插入图片描述

Input: The normalized weighted matrix $\tilde{W}$ and the starting vector $\vec{e_i}$
Output: The ranking vector $\vec{r_i}$

对于从指定位置（ $\vec{e_i}$ ）出发期望的遍历点位置 $\vec{r_i}$ ，它的值表示为：
$\vec{r_i}=c\tilde{W}\vec{r_i}+(1-c)\vec{e_i}$ （1）

从中可以计算出
$\vec{r_i}=(1-c)(1-c\tilde{W})^{-1}\vec{e_i}\\ =(1-c)Q^{-1}\vec{e_i}$
可以看出在实际图含义上它是随机游动的，但是 $\vec{r_i}$ 是数值累计的。

OnTheFly
最基础的方法是按照（1）式递归收敛求解（条件一般是是 $\vec{r_i}$ 的L2范数的变化小于一定阈值 $\xi_1$ 或指达到了指定的迭代次数m）。它被称为OnTheFly方法。这种方法在数据库较大时比较耗时。
优化点： $\vec{r_i}$ 的分布存在局部性（这体现出了graph中节点的community性），所以只对存在了节点i的图的parition（注意，这个分割并不一定意味着完全不连通，只不过是距离较远参考意义很小）进行计算，其他的 $r_{ij}$ 显然可以直接置0.
PreCompute
预先计算出 $Q^{-1}$ ,这种方法在数据库较大时比较耗空间。
优化点：可以通过低秩近似来快速计算 $Q^{-1}$

通过节点的locality，以及图的线性相关性，可以使用近似算法快速计算RWR。

使用拉普拉斯正则化计算出 $\tilde{W}$
使用诸如METIS软件包等方法将图分割成k个partition（METIS简单实用可见https://metis.readthedocs.io/en/latest/）
将 $\tilde{W}$ 基于分割结果分为 $\tilde{W}=\tilde{W_1}+\tilde{W_2}$ 。其中 $\tilde{W_1}$ 包含全部partition内部的权重矩阵， $\tilde{W_2}$ 包含全部partition外部的权重矩阵，显然这二者交集为空。
按照partition序列将 $\tilde{W_1}$ 做成如下表示：
通过上述分解出的 $\tilde{W_1}$ ，计算 $Q_{1,i}^{-1}$ :
$Q_{1,i}^{-1}=(1-c\tilde{W_{1,i}})^{-1}$
将Q与W值按同样的方式进行排列，得到 $Q_1^{-1}$ ：
对 $\tilde{W_2}$ 部分，做低秩近似：
$\tilde{W_2}=USV$ （这里似乎可以另开一个线程去做）
计算parition间项 $\tilde{\Lambda}$ :
$\tilde{\Lambda}=(S^{-1}-cVQ_1^{-1}U)^{-1}$