从马尔科夫链到吉布斯采样与PageRank

原创 2017年04月14日 15:02:58

马尔科夫链表示state的链式关系,下一个state只跟上一个state有关。
吉布斯采样通过采样条件概率分布得到的样本点,近似估计概率分布P(z)。PageRank通过节点间的连接,估计节点的重要程度r。吉布斯采样中,state代表不同的样本点,state的分布就是P(z)。PageRank中,state代表不同节点的分数,state的分布就是要求的r。不论吉布斯采样还是PageRank,state的分布本质上都是马尔科夫链,而最后都希望state的分布是独一并且稳定的。

这里写图片描述

Markov Chain

介绍

这里写图片描述

上图表示了一个典型的马尔科夫链,每个城市A、B、C代表不同的state。该图描述了不同state间的转移变化关系。并且下一个时间的state只和上一个时间的state有关。

稳定态

想象上述的马尔科夫链,state不停的变化,我们可以求出不同state的概率,也就是state的概率分布。

最简单的办法是列出不同state的概率公式,然后解线性方程组求解,如下:

这里写图片描述

可是,单一稳定的state不一定存在,例如下面两种情况:

  • Spider trapab,相当于状态被困在某区域(多个状态)。
  • Dead Endab,相当于状态被困在单个状态中。

那么,什么情况下才有单一稳定的state的存在呢?

单一稳定的state分布的存在的充分条件是:对于任意两个states1,s2,它们之间的状态转移概率不为0。也就是p(s1|s2)>0。也就是说,state间(包含自身)都有连接,这样的话便存在单一稳定的state分布。

Gibbs Sampling

介绍

Gibbs Sampling遇到的问题是:在已知P(zi|z1,...,zi1,zi+1,...zN)分布的情况下,求变量P(z)(z=z1,...,zN)的分布。

Gibbs Sampling的解决办法是:设置外循环t,遍历采样点数;设置内循环k,遍历特征数,对于每一个特征值ztk,根据分布ztkP(zk=ztk|z1=zt1,z2=zt2,...)采样ztk。最后,根据z1,z2,z3,...得到P(z)(z=z1,...,zN)的分布。

这里写图片描述

Gibbs Sampling与Markov

吉布斯采样的数据z1,z2,z3,...相当于马尔科夫链中不同的state(因为zt只和zt1有关)。如果马尔科夫链存在单一且稳定的状态分布,那么就可以通过采样求出P(z)(z=z1,...,zN)

下面,分两个步骤证明:

  1. Gibbs Sampling存在单一且稳定的状态分布。
  2. Gibbs Sampling单一且稳定的状态分布就是P(z)

Gibbs Sampling中条件概率没有0值确保了Gibbs Sampling存在单一且稳定的状态分布。
这里写图片描述

根据概率公式,可推导Gibbs Sampling单一且稳定的状态分布就是P(z)
这里写图片描述

Page Rank

介绍

Page Rank的哲学是:一个点的重要性跟这个点的in-link有关,不同的in-link权重不一样,score越大的节点对应的in-link也就越重要。
令节点的score向量为r,节点的邻接矩阵为M。那么,rM的关系可写作:

r=Mr

示例如下:
这里写图片描述

这个例子中,可以把矩阵M和向量r相乘当做M的列以向量r为权重进行线性组合,矩阵M同一列的不同行代表该节点向其他节点的分发连接。这样理解起来就比较清晰了。

r的求解可以使用特征值-特征向量分解,最大特征值对应的特征向量即是r

稳定性

r的值在满足特定情况下才是单一且稳定的。

实际计算Page Rank中,需要增加一个条件:每个节点都有1N的概率变换到任何其他节点状态。

原来的式子是:

r=Mr

考虑稳定性后的式子是:

Ar=βM+(1β)1N11T=Ar

示例如下:

这里写图片描述

稀疏计算

在上面的计算公式中,矩阵A是稠密的,空间复杂度是O(N2),占得空间很大。

因此,改进计算如下:

Arr=βM+(1β)1N11T=Ar=βMr+1βN

从Google搜索算法PageRank谈马尔科夫链(Markov)

Google的搜索引擎是基于什么?他的算法为什么比较高效?我想还是会有人对此敢兴趣吧。Google的搜索算法PageRank是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原...
  • xftimes
  • xftimes
  • 2016-06-01 10:57:13
  • 1790

深入探讨PageRank(二):PageRank原理剖析

深入探讨PageRank(二):PageRank原理剖析 关于PageRank的基础知识简介请参见博文:《深入探讨PageRank(一):PageRank算法原理入门》。 一、PageRank算法的简...
  • MONKEY_D_MENG
  • MONKEY_D_MENG
  • 2011-06-20 14:55:00
  • 32840

马尔可夫链及吉布斯抽样 入门详解(Markov Chain Monte Carlo and Gibbs Sampling)

from http://blog.csdn.net/coder_oyang/article/details/47106093 最近总结了下自己的笔记,发现原来自己还有这个东西,所以再次回顾了...
  • distsau
  • distsau
  • 2015-08-19 09:03:29
  • 937

马氏链的MATLAB程序

关于马尔可夫<em>链</em>的MATLAB程序峄做信道分析及离散事件仿真度的同事有用。... 关于马尔可夫<em>链</em>的MATLAB程序峄做信道分析及...初识马尔可夫和马尔可夫<em>链</em> <em>吉布斯</em>采样——原...
  • 2018年04月04日 00:00

马尔科夫链与吉布斯抽样

Gibbs抽样方法是 Markov Chain Monte Carlo(MCMC)方法的一种,也是应用最为广泛的一种。wikipedia称gibbs抽样为   In statistics and ...
  • raoqiang19911215
  • raoqiang19911215
  • 2014-03-16 14:46:04
  • 1897

马尔可夫链及吉布斯抽样 入门详解(Markov Chain Monte Carlo and Gibbs Sampling)

最近总结了下自己的笔记,发现原来自己还有这个东西,所以再次回顾了下,并简单做以下梳理,文章来自LDA-math-MCMC 和Gibbs Sampling...
  • coder_oyang
  • coder_oyang
  • 2015-07-28 15:45:28
  • 3096

从马尔科夫链到吉布斯采样与PageRank

马尔科夫链表示state的链式关系,下一个state只跟上一个state有关。 吉布斯采样通过采样条件概率分布得到的样本点,近似估计概率分布P(z)P(z)。PageRank通过节点间的连接,估计节...
  • Young_Gy
  • Young_Gy
  • 2017-04-14 15:02:58
  • 763

深度学习 —— 受限玻尔曼机 RBM

受限玻尔曼机(RBM) 能量基础模型(EBM) 能量基础模型为每一个感兴趣的变量设置分配一个标量能量。学习目的是改变能量函数以使它具有期待属性。例如我们希望通过理想或可行的设置获得低能量。能量基础...
  • wangli0519
  • wangli0519
  • 2017-06-03 21:57:32
  • 616

马尔科夫链蒙特卡洛算法(MCMC)中的Gibbs采样

  • sulliy
  • sulliy
  • 2011-10-16 17:45:41
  • 8796

马尔科夫链MCMC采样算法和LDA Gibbs Sampling

马氏链及其平稳分布 马氏链的数学定义很简单 P(Xt+1=x|Xt,Xt−1,⋯)=P(Xt+1=x|Xt) 也就是状态转移的概率只依赖于前一个状态。 我们先来看马氏链的一个具体的例子。社...
  • shenxiaoming77
  • shenxiaoming77
  • 2014-12-08 16:53:35
  • 2271
收藏助手
不良信息举报
您举报文章:从马尔科夫链到吉布斯采样与PageRank
举报原因:
原因补充:

(最多只允许输入30个字)