Gibbs Sampling(三):补充

转自:http://blog.sina.com.cn/s/blog_5033f3b40101jgmv.html


因上篇太长,这里本文完全续上文:Gibbs Sampling(二):Gibbs Sampling总结


2.【关于文中积分到期望的转化】

基本上,任何的概率、积分、和求和都是possible表达成期望的形式的。

       概率形式: P(YϵA) = E(I{A}(Y)),其中I函数可以作为指示函数,YϵA则取1,否则取0.

       积分形式:如文中1.2.2所示。

       离散求和形式: Gibbs <wbr>Sampling(三):补充


 既然所有的概率、积分、求和都可以表达成期望的形式,那理论上所有的这些问题都可以用MonteCarlo采样的方法解决,实现步骤在《》中有详细描述,另外也可以参考文献2,其中有例子可供参考。

【关于MonteCarlo方法优劣的衡量】

       从上面我们知道,基本所有的问题都可以用Monte Carlo的方法结合大数定律来求解,但是,并不是所有的问题都能在合理的时间内得到一个好的结果的。很多时候,对于同一个问题,有的Monte Carlo estimators会要很长时间才能得到较好的结果,而另外一些Monte Carlo estimators就要明显优于它们。这些所谓的‘好的’Monte Carlo estimator都有比较小的方差,我们称他们为Monte Carlo方差。(关于Monte Carlo estimator: 在本文及之前的例子中,我们都是应用服从uniform(0,1)分布的样本点来进行采样的整个过程的,这样一个过程就是一个Monte Carlo estimator, 倘若我们换成采样时要求其服从uniform(0,5)来实现这个过程,那就又是另外一个Monte Carlo estimator)

【关于Monte Carlo采样中的分布选择】

在本文及之前的例子中,我们都是选择服从[0,1]之间的均匀分布的样本点进行采样求均值最终求积分的,然而是不是也可以选其他的呢?当然可以。请看下面的例子。

Gibbs <wbr>Sampling(三):补充

       假如对于积分∫g(x)dx中的g(x)是如图中所示,在[0,1]区间之外,g(x)取值均为0

         此时,假如我们按照博文1中采集服从[0,1]均匀分布的样本点U,将积分转化为期望形式:∫g(x)dx=E[g(U)],然后通过Monte Carlo方法,采样求取均值1/nig(ui),应该会得到比较好的结果。

         但是,我们换一个分布,即变量替换的时候让替换后的变量不是服从[0,1]之间的均匀分布,比如用新变量W~uniform(0,5)来代入,p(w)=0.2(0<=w<=5)则有:

E[g(w)] = ∫[0,5]g(w)p(w)dw

= (1/5)∫[0,5]g(w) dw

= (1/5)∫[0,1]g(w) dw

= (1/5) ∫[0,1]g(x) dx

故有:[0,1]g(x) dx = 5 E[g(w)]

这样一来,在采用Monte Carlo方法,得到采样点后得到的估计是

[0,1]g(x) dx = (5/n)∑g(wi)

我们看到这样的过程也可以得到对所求积分的估计,但是。。太浪费了。。。,因为采样的时候是在[0,5]的范围内采样,而在这个区间内大部分的点[1,5],区间内的点都是没意义的,可以不用采的,这就说明选择哪个分布还是有很大影响的,不一定对结果影响,但是时间复杂度会有影响。这就引出了重要性采样(好像扯远了。。不过这一篇本来就是闲扯,就再扯扯吧。。)。

Important Sampling重要性采样】

重要性采样是要解决上面所提到的选什么分布的问题。

假如h(x)是在A上有定义,即有:

Gibbs <wbr>Sampling(三):补充

那么对于关于g(x)在这个区域上的积分可以表达为:

Gibbs <wbr>Sampling(三):补充

然后得到的Monte Carlo estimator就是:

Gibbs <wbr>Sampling(三):补充

我们在【关于MonteCarlo方法优劣的衡量】的部分有说道衡量各个Monte Carlo estimator优劣的主要就是看他们的方差,如果能够选择一个合适的h(x)使得方差Gibbs <wbr>Sampling(三):补充最小,那么可以说h(x)就算是找到了。经过证明,当采样函数h(x)g(x)是比例关系时,方差最小。总结起来,一个合适的好的importance sampling function h(x)应当具备以下特点:

              1.g(x)0的区域,都有h(x)>0

              2. h(x)要与|g(x)|近似成比例关系

              3.h(x)中采样应该比较容易,比如均匀分布,大家都用它,一个重要原因就是采样服从均匀分布的点比较容易;

              4. 对于得到的采样点x h(x)应该比较容易计算。

 

 

 

 

参考文献:

1.Gibbs Sampling for the Unintiated;

2.Monte Carlo Methods and Important Sampling


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值