PageRank原理及C语言实现

为梦而生~

于 2023-05-08 22:23:06 发布

阅读量616

点赞数 2

分类专栏：基础算法 C语言文章标签： c语言算法开发语言

本文链接：https://blog.csdn.net/z135733/article/details/130499905

版权

基础算法同时被 2 个专栏收录

16 篇文章 4 订阅

订阅专栏

C语言

7 篇文章 1 订阅

订阅专栏

PageRank是一种搜索引擎排名算法，它是由谷歌公司的联合创始人拉里·佩奇（Larry Page）开发的。该算法将互联网看作一张有向图，其中网络页面表示为节点，链接（超链接）表示为边。

PageRank的基本原理是给予每个页面一个"权重"，这个权重取决于该网页被其他网页所连接数量和质量的综合评估。具体而言，当有很多页面都指向同一个页面时，该页面将被认为是更重要（更受欢迎）的页面，从而获得更高的权重。

在计算PageRank值时，每个页面将被分配一个初始值（通常为1）。然后，使用迭代算法多次计算每个页面的PageRank值，直到收敛。

在计算过程中，每个节点的PageRank值将从与之关联的所有入站节点（即指向该节点的节点）中收集来，这些入站节点的PageRank值将按其相邻边的等分比例进行计算。最终，PageRank值被视为每个节点的相对权重，用于搜索引擎的排名。

总之，PageRank算法主要是通过评估网页的入站链接的数量和质量，以及这些链接指向哪些页面来确定页面的相对重要性，并据此进行搜索引擎的排名。

其公式实现如下所示：

$\ For$ $\ t = 0:$
$R\left(p_{i} ; t\right)=\frac{1}{N}$
$\ For$ $\ t > 0:$

$R\left(p_{j} ; t\right)=\frac{1-d}{N}+d \times\left(\left(\sum_{p _{j} \in M\left(p_{i}\right)} \frac{P R\left(p_{j}; t-1\right)}{D\left(p_{j}\right)}\right)+\left(\sum_{p_{j} \in S} \frac{P R\left(p_{j} ; t-1\right)}{N}\right)\right)$

算法的C语言实现如下所示：

结构体定义：

//边表结点
typedef struct ArcNode{
	int adjvex;		//某条边指向的那个顶点的位置
	ArcNode * next;	//指向下一条弧的指针 
	weight w;		//权值
}ArcNode; 
//顶点表结点
typedef struct VNode{
	VertexType data;	//顶点信息
	double oldrank;
	double pagerank;
//	double sink_rank;
	ArcNode * first;	//指向第一条依附该顶点的弧的指针
}VNode;
typedef struct GraphRepr{
	VNode * node;		//邻接表
	int vexnum, arcnum;	//图的顶点数和弧数 
}Graph, *graph;

算法实现：

void graph_pagerank(graph g, double damping, double delta) {
	double sink_rank = 0;
    int N = graph_vertices_count(g);
    for(int i = 0; i < N; i++){
    	g->node[i].oldrank = 0;
		g->node[i].pagerank = 1.0/N;    
//		printf("%lf\n", g->node[i].pagerank);	
	}
	double temp_delta, min_delta = INF;
	for(int i = 0; i < N; i++){
		temp_delta = g->node[i].pagerank - g->node[i].oldrank > 0 ? g->node[i].pagerank - g->node[i].oldrank : g->node[i].oldrank - g->node[i].pagerank;
		if(temp_delta < min_delta) min_delta = temp_delta;
	}
	while(temp_delta > delta){
//		printf("%lf\n", temp_delta);
		for(int j = 0; j < N; j++){
			g->node[j].oldrank = g->node[j].pagerank;
//			printf("%lf ", g->node[j].pagerank);
		}
//		putchar('\n');
		sink_rank = 0;
		for(int j = 0; j < N; j++){
			if(g->node[j].first == NULL){
				sink_rank = sink_rank + (damping * (g->node[j].oldrank / (double)N));
			}
		}
		for(int j = 0; j < N; j++){
			g->node[j].pagerank = sink_rank + ((1 - damping) / (double)N);
			for(int k = 0; k < N; k++){
				ArcNode * temp = g->node[k].first;
				while(temp){
					if(temp->adjvex == j){
//						printf("%d\n", temp->adjvex);
						int num_outbound_edge = 1;
						ArcNode * temp_num = g->node[k].first;
						while(temp_num->next){
							num_outbound_edge++;
							temp_num = temp_num->next;
						}
//						printf("%d\n", num_outbound_edge);
						g->node[j].pagerank = g->node[j].pagerank + ((damping * g->node[k].oldrank) / (double)num_outbound_edge);
						break;
					}
					temp = temp->next;
				}
			}
		}
		min_delta = INF;
		for(int i = 0; i < N; i++){
			temp_delta = g->node[i].pagerank - g->node[i].oldrank > 0 ? g->node[i].pagerank - g->node[i].oldrank : g->node[i].oldrank - g->node[i].pagerank;
			if(temp_delta < min_delta) min_delta = temp_delta;
		}
	}		
		
    return;
}

为梦而生~

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
PageRank原理及C语言实现

在计算过程中，每个节点的PageRank值将从与之关联的所有入站节点（即指向该节点的节点）中收集来，这些入站节点的PageRank值将按其相邻边的等分比例进行计算。最终，PageRank值被视为每个节点的相对权重，用于搜索引擎的排名。具体而言，当有很多页面都指向同一个页面时，该页面将被认为是更重要（更受欢迎）的页面，从而获得更高的权重。总之，PageRank算法主要是通过评估网页的入站链接的数量和质量，以及这些链接指向哪些页面来确定页面的相对重要性，并据此进行搜索引擎的排名。
复制链接

扫一扫