Google的搜索引擎是基于什么?他的算法为什么比较高效?我想还是会有人对此敢兴趣吧。
Google的搜索算法PageRank是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法。
已经有很多关于PageRank的介绍,这里就不再赘述。
这里介绍的是PageRank所基于的数学原理-Markov链。
可以先看下PageRank:
PageRank是基于【从许多优质网页链接过来的网页,必定还是优质网页】的回归关系,来判定所有网页的重要性。
其有三个指标:
- 反向连接数;
- 反向链接是否来自推荐度高的网页;
- 反向链接源的页面链接数。
Markov性
令
A={Sn0=i0,⋯,Snk−1=ik−1}
——过去
B={Sk=i} ——现在
C={Sk+1=j} ——未来
则
P(C|AB)=P(C|B)
——已知过去到现在的信息来预测未来,则与现在状态有关,与过去状态无关。