No.5 使用 PageRank 找到关系网中的牛人

本文通过PageRank算法分析500w简书粉丝数据,找到具有高影响力的用户。利用NetworkX库简化实现,结果表明高PageRank值用户通常粉丝众多,包括数据从业者、鸡汤作家和画家。此研究不仅增进对PageRank的理解,也为推荐系统提供了新思路。
摘要由CSDN通过智能技术生成

0x00 前言

社交关系数据已经准备就绪,PageRank算法的原理和实现我们也已经大致掌握,下面就可以在此基础上做一些有意思的事情了。

本篇会在前面抓取的500w简书的粉丝数据上,使用 PageRank 找到其中的排名靠前的用户。

0x01 前期准备

1. 数据准备

数据的存储格式如下,这也是我们在生产环境中经常使用的数据格式,因此在爬虫获取的阶段已经处理完毕。这份数据是一个有向图,左边为用户,右边为他的粉丝。

备注: 这里面用的是简书生成的用户的ID,根据这个ID可以很方便地拼出来用户的主页。

2. 程序准备

这里还是要鄙视一下自己的程序,我没用自己的写的Demo程序,而用了一个Python包:NetworkX。懂了原理之后,用一些开源的实现,总是比自己靠谱一点。

NetworkX is a Python package for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.

NetworkX用起来很方便,总的来讲三步就搞定:

  1. 引入NetworkX包
  2. 初始化一个图
  3. 计算PageRank值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值