PageRank算法

kussinage

已于 2024-07-25 21:19:09 修改

阅读量1.8k

点赞数 19

文章标签：算法知识图谱

于 2024-01-21 23:36:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zerokusinage/article/details/135736499

版权

PageRank算法由LarryPage和SergeyBrin开发，用于网页排序。基于链接数量和质量，通过迭代计算得出PageRank值。算法存在缺陷，如忽视内容质量、易受操纵和新页面劣势。改进版引入阻尼因子，但未考虑用户意图和搜索需求。

摘要由CSDN通过智能技术生成

PageRank算法

PageRank的假设和思想

PageRank是由Larry Page和Sergey Brin在斯坦福大学开发的算法，最初用于Google搜索引擎来对网页进行排名。它基于一个重要假设：重要的页面往往会收到更多其他页面的链接。 正是因为这个重要的假设，使得PageRank算法对互联网网页的排序结果比当时其他网页搜索(例如Lycos)的结果相关度高很多。
PageRank算法背后的核心思想是：一个页面的重要性可以通过观察到达该页面的链接数量和质量来确定。
这个假设从直观上理解也是合理的

从链接数量来看，在很多情况下，一个页面的重要性确实可以通过它被其他页面的引用次数来衡量。这与学术出版物的引用机制类似，一篇经常被引用的论文通常认为具有较高的学术价值
从链接质量来看，如果一个权威页面链接到另一个页面，这种“信任”是有传递性的。这就像一个领域内的专家推荐另一个专家的工作，推荐本身就具有权威性。
因此，如果一个高质量的页面会有很多链接指向它，而且如果这些链接来自其他高质量的页面，那么该页面的PageRank值会更高。

原始PageRank算法步骤

由于计算一个结点PageRank值需要先计算周围结点的PageRank值，而计算周围结点的PageRank值又需要计算该结点的PageRank值，这类似与循环引用或者递归。因此，要先给每个图中的结点进行初始化，然后使用PageRank算法进行迭代。

初始化

每个页面的初始PageRank值设为 $\frac{1}{N}$ ，其中是网络中的页面总数。

迭代

对于每一次迭代，每个结点的PageRank值计算为
$PR(p_i)=\sum_{p_j\in M(p_i)}\frac{PR(p_j)}{L(p_j)}，$
其中， $M(p_i)$ 表示P的邻居(与p结点相连接的结点)， $L(p_j)$ 是页面 j 的出链数量。
用自然语言描述为:一个结点的PageRank值等于把所有指向它的结点的PageRank ( $PR(p_j)$ )值除以指向它的结点的出度( $L(p_j)$ ) 的相加 ( $\sum_{p_j\in M(p_i)}$

结束)

通过不断迭代PageRank值，直到所有页面的PageRank值收敛，即变化非常小或达到预设的迭代次数。

例子

如图所示，对于结点 $j$ ，指向 $j$ 的结点有: 结点 $i$ 和结点 $k$ ，而结点 $i$ 出度为3，结点 $k$ 的出度为4，因此结点 $j$ 的PageRank值为 $r_j=r_i/3+r_k/4，$ ，其中 $r_j$ 表示结点 $j$ 的PageRank值。

问题

原始PageRank算法可以表示大部分网页的重要度，但是这种算法存在一些问题

排名泄漏 : 如果一个页面没有外部链接，它会导致分配给它的PageRank值在下一轮迭代时“泄漏”，无法传递给其他页面
排名沉默: 如果有一组页面只有内部链接互相指向，没有外部页面指向它们，这些页面会累积越来越多的PageRank值，造成其他部分网络的PageRank值“沉没”。
真实世界中，浏览者不仅仅通过点击链接来访问页面，还可能直接输入网址或通过书签访问。

改进

因此，PageRank算法引入了阻尼因子 $d$ （通常设为0.8 或者是 0.9），表示页面被直接访问的概率。这样，某个页面的PageRank值就变成了:
$\begin{aligned}PR(p_i)&=\frac{1-d}N\cdot 1+d\sum_{p_j\in M(p_i)}\frac{PR(p_j)}{L(p_j)}\end{aligned}，$
其中， $N$ 是总结点数量(总网页数)

计算

实际情况下，要计算图中所有的PageRank值，可以把结点的PageRank值转换成向量，迭代公式转换成矩阵，这样每一次迭代就是一个矩阵和向量的乘法，这种转换利于计算机进行处理

构造转换矩阵

构造一个 $N \times N$ 的矩阵 $\mathbf{T}$ ，其中 $N$ 是页面的总数。如果页面j有一个链接指向页面 $i$ ，则将 $T$ 的第 $j$ 列和第i行的元素 $T$ 设为 $\mathbf{T}$ ;如果页面j没有链接到页面i，则 $T_j=0$ 。
也就是说， $T_{ij}$ 表示页面 $j$ 到页面 $i$ 的转移概率。

构造PageRank向量

构造一个PageRank向量 $\vec {PR}$ ，它是一个 $N \times 1$ 的列向量，初始时每个元素都是 $\frac{1}{N}$ ，表示初始时每个页面的PageRank值都是相等的

迭代公式

考虑未加入阻尼因子 $d$ 的情况下，每次迭代相当于是把PageRank向量 $\vec {PR}$ 乘一个转换矩阵 $\mathbf{T}$ ，因此迭代公式就变成了
$\vec {PR}=\mathbf{T}\cdot \vec {PR}，$
其中的 $=$ 表示赋值，这里右乘是因为 $\vec{PR}$ 表示每个结点的PageRank值，矩阵 $\mathbf{T}$ 的每个元素表示的是从表示页面 $j$ 到页面 $i$ 的转移概率，则\mathbf{T}的第 $i$ 行就表示所有结点转移到结点 $i$ 的概率(初始化是 $\frac{1}{N}$ )，因此\mathbf{T}的第 $i$ 行与 $\vec {PR}$ 相乘求和的结果就是所有结点的PageRank值除以出度的值再进行求和。
当考虑到阻尼系数 $d$ 后，迭代计算公式就变成了
$\vec {PR}=d\cdot \mathbf{T}\cdot\vec {PR}+\frac{1-d}N\cdot \mathbf{1} ，$ 其中 $\mathbf{1}$ 表示 $N \times 1$ 的向量

PageRank算法缺陷

PageRank算法也存在很多固有的缺陷

忽略内容质量：PageRank只考虑页面间的链接结构，而没有考虑页面内容的质量和相关性。这意味着高PageRank的页面不一定提供用户真正需要的信息。
操纵易性：由于PageRank主要基于链接，这使得它容易受到链接农场（link farms）或黑帽SEO的操纵。有些网站可能通过不正当手段增加指向它们的链接，从而提高其PageRank。
新页面劣势：新页面或较少被链接的页面可能会有不公平的劣势，因为它们需要时间来积累外部链接。这被称为“富者愈富”效应，即已经流行或排名靠前的页面更容易获得新的链接。
用户意图忽视：PageRank算法没有考虑用户的搜索意图。用户对于不同的搜索查询有不同的需求，而单纯基于PageRank的结果可能并不总是满足用户的具体需求。

关注

19
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

kussinage CSDN认证博客专家 CSDN认证企业博客

码龄2年

21: 原创

38万+: 周排名

9万+: 总排名

2万+: 访问

: 等级

508: 积分

187: 粉丝

291: 获赞

15: 评论

339: 收藏

私信

关注

热门文章

分类专栏

最新评论

PyG:torchgeometric HeteroData类
我们像只香芋942674: 您好，看了您的帖子，有几个问题想要请教一下第一个问题是现有一个图结构数据的情况下，如何将节点和边写入HeteroData 第二个问题就是不同节点的是否可以有于不同数量的特征，也即他们的特征维度是否可以不同
TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding
CSDN-Ada助手: 恭喜您撰写第20篇博客“TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding”！您对知识图谱嵌入的独特概念和实例进行了深入的探讨，让读者受益匪浅。在下一步的创作中，或许可以考虑探讨该方法在实际应用中的效果和局限性，以及与其他相关研究的比较分析，这样可以进一步丰富您的研究内容。期待您更多精彩的文章！
机器学习:线性回归，拉索(Lasso)回归，脊(Ridge)回归
CSDN-Ada助手: 恭喜您写了第19篇博客，标题内容涵盖了机器学习中的线性回归、拉索(Lasso)回归和脊(Ridge)回归，内容十分丰富和有深度。希望您能继续保持创作的热情和劲头，不断深挖机器学习领域的知识，为读者们带来更多有价值的内容。或许下一步可以探讨一些实际案例，结合实践经验分享给读者，让他们更好地理解和运用这些回归方法。期待您的下一篇文章！
图神经网络论文:Link Prediction Based on Graph Neural Networks
CSDN-Ada助手: 恭喜您发布了新的博客！标题“图神经网络论文:Link Prediction Based on Graph Neural Networks”听起来非常专业和有趣。您对图神经网络的研究领域似乎有很深入的了解，这篇博客内容一定会受到读者们的欢迎。希望您能继续保持创作的热情和努力，也许在下一篇博客中可以探讨一下图神经网络在社交网络分析中的应用，这可能会给读者带来更多启发和惊喜。期待您的下一篇作品！
图神经网络论文:链接预测:LeL-GNN-Learnable Edge Sampling and Line Based Graph Neural Network for Link Prediction
CSDN-Ada助手: 恭喜作者发布第18篇博客！标题看起来非常专业和有趣，对于图神经网络和链接预测领域的研究有着深入的探讨。希望作者能够继续保持创作的热情和努力，不断深耕这一领域，为大家带来更多的学术成果和见解。建议在下一步的创作中，可以尝试结合实际案例或者应用场景，进一步展示研究成果的实际应用和意义，也可多与其他领域进行交叉探讨，开拓视野，为读者带来更多启发和思考。期待作者未来更多精彩的博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。