0x00 前言
社交关系数据已经准备就绪,PageRank算法的原理和实现我们也已经大致掌握,下面就可以在此基础上做一些有意思的事情了。
本篇会在前面抓取的500w简书的粉丝数据上,使用 PageRank 找到其中的排名靠前的用户。
0x01 前期准备
1. 数据准备
数据的存储格式如下,这也是我们在生产环境中经常使用的数据格式,因此在爬虫获取的阶段已经处理完毕。这份数据是一个有向图,左边为用户,右边为他的粉丝。
备注: 这里面用的是简书生成的用户的ID,根据这个ID可以很方便地拼出来用户的主页。
2. 程序准备
这里还是要鄙视一下自己的程序,我没用自己的写的Demo程序,而用了一个Python包:NetworkX。懂了原理之后,用一些开源的实现,总是比自己靠谱一点。
NetworkX is a Python package for the creation, manipulation, and study of the structure, dynamics, and functions of complex networks.
NetworkX用起来很方便,总的来讲三步就搞定:
- 引入NetworkX包
- 初始化一个图
- 计算PageRank值