统计学习方法学习笔记：第二十一章.PageRank算法

最新推荐文章于 2021-10-14 11:28:00 发布

小滔滔ahh

最新推荐文章于 2021-10-14 11:28:00 发布

阅读量300

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/weixin_44692791/article/details/102989792

版权

统计学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

第二十一章：PageRank算法

PageRank的定义：网页重要度的计算方法

假设互联网是一个有向图，在其基础上定义随机游走模型，即一阶马尔可夫链。假设浏览者在每个网页依照链接出去的超链接以等概率跳转到下一个网页，并在网上持续不断的进行这样的随机跳转，这个过程形成一阶马尔可夫链。 $\color{red}{PageRank表示这个马尔可夫链的平稳分布}$
这个马尔可夫链的转移矩阵 $M=[m_{ij}]_{n\times{n}}$ 定义如下：
$m_{ij}:$ 如果结点 $j$ 有 k 个有向边连出，并且结点 i 是其连出的一个结点，则 $m_{ij}=\frac{1}{k};否则m_{ij}=0;$
由上述定义可知， $\color{red}{M是一个随机矩阵m_{ij}\geq0,\displaystyle\sum_{i=1}^nm_{ij}=1}$

$\color{red}{PageRank值依赖网络的拓扑结构，一旦网络的拓扑结构（连接关系）确定，PageRank值就确定}$

若把在某个时刻访问各个结点的概率用一个列向量 R 表示，则马尔可夫游走过程可以表示为：

$\color{red}{R_{t+1}=MR_t}$

基本定义（理想）

给定一个包含 n 个结点的 $\color{red}{强连通且非周期}$ 的有向图，在有向图上定义随机游走模型，即一阶马尔可夫链，随机游走的特点是从一个结点到有向边连出的所有结点的转移概率相等，对于这个有向图的平稳分布R（即PageRank），R 的各个分量称为各结点的 PageRank值，有下列特点：
$\color{red}{PR(v_i})\geq0;$
$\color{red}{\displaystyle\sum_{i=1}^nPR(v_i)=1;}$
$\color{red}{PR(v_i)=\displaystyle\sum_{v_j\in{M(v_i)}}\frac{PR(v_j)}{L(v_j)},i=1,2,\cdots,n}$

上式中， $M(v_i)$ 表示指向结点 $v_i$ 的结点集合， $L(v_j)$ 表示结点 $v_j$ 连出的有向边的个数；

所以求解PageRank就是求解网络拓扑结构的马尔可夫链的平稳分布；

$\color{red}{问题：}$ 在互联网中，大部分网页没有连接出去的超链接，也就是说从这些网页无法跳转到其他网页，也就不满足强连通性，这样基本定义就不再适用，需要引入更一般的定义；

一般定义（现实）

$\color{red}{R=dMR+\frac{1-d}{n}1}$
表示，在任意一个网页上，浏览者或者 $\color{red}{以概率d决定按照超链接随机跳转}$ ，这时以等概率从连接出去的超链接跳转到下一个网页；或者 $\color{red}{以概率(1-d)决定完全随机跳转}$ ，这时以概率 $\frac{1}{n}$ 跳转到任意一个网页；第二个机制保证从没有连接出去的超链接的网页也可以跳转出；

PageRank的计算

PageRank的计算是根据其定义来进行 $\color{red}{迭代}$

迭代算法：根据 $\color{red}{R_{t+1}=dMR_t+\frac{1-d}{n}1}$ ，设置好 $\color{red}{阻尼因子d}$ 和 $\color{red}{初始向量R_0}$ ，然后进行迭代；
幂法：幂法用于计算矩阵的主特征值（绝对值最大的特征值）和主特征向量；根据下式：
$\color{red}{R=(dM+\frac{1-d}{n}E)R=AR}$ 进行迭代；
一般 PageRank的向量R是矩阵A的主特征向量，主特征值为1；（？既然可以直接求特征向量为什么还要进行迭代？）具体步骤如下：
（1）令 t = 0 ，选择初始向量 $x_0$
（2）计算有向图的一般转移矩阵 A
$\color{red}{A=dM+\frac{1-d}{n}E}$
（3）迭代并规范化（这里的范数是无穷范数，即向量个分量的绝对值的最大值）结果向量：
$\color{red}{y_{t+1}=Ax_t;x_{t+1}=\frac{y_{t+1}}{||y_{t+1}||}}$
（4）当 $||x_{t+1}-x_t||<\epsilon时，令R=x_t,停止迭代$
（5）否则，令 t = t + 1，返回（3）
（6）对 R 进行规范化处理，使其表示概率分布
代数算法：通过一般转移矩阵的逆矩阵求解有向图的一般 PageRank
$\color{red}{R=(I-dM)}^{-1}\frac{1-d}{n}1,I$ 是单位矩阵，当 0<d<1时，这个式子表示的线性方程组有唯一的解；