PageRank算法(网页排名算法)初步理解

背景:pageRank 是Google CEO 拉里佩奇提出的一种算法,来计算互联网里的网站的重要性,以对搜索进行排名。

pagerank 基本思想:

l 数量假设:一个页面越被其他页面链接,说明他越重要

l 质量假设:越是被高质量页面链接,说明该页面越重要

Pagerank模型:

pagerank 模型模拟的是一个用户在互联网上浏览到每个网页的概率。

例一:下面来一个简单计算,更好的理解下:

在这里插入图片描述

pg(A) = pg(C)/1 + pg(B) /2

A网页的pagerank值由网页B和网页C的pagerank贡献而来,因为B网页有两个外链,假设等概率贡献,则贡献给A的值为自身的一半。

例二:下面看一下只进不出的例子:

在这里插入图片描述

pg(A) = (a * pg(B) /2) + (1-a)
/ 4)

在任意时刻,用户到达某页面后并继续向后浏览的概率为a,则用户停止浏览的概率为(1-a),此时用户停止浏览后,可能会直接通过输入浏览器地址进行浏览网页,此时跳转到任意网址的概率都一样,于是上面的 a * pg(B) /2 表示从b跳转过来的概率,(1-a) / 4 表示直接输入网址跳转过来的概率。

给出计算公式:

在这里插入图片描述

实例:

假设有如下图:

在这里插入图片描述

根据上面的矩阵,我们可以得到下面的矩阵:

在这里插入图片描述

终止点问题:只入不出,则所有节点的概率最后会变为0;

陷阱问题:网页只有指向自己的链接,则最后所有的概率都会转移到这些网站。

仍需要解决:证明其pagerank值是收敛的

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值