采样方法总结

一、采样是什么?

采样,顾名思义就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地适应后期的模型学习;可以用于随机模拟已进行复杂模型的近似求解或推理。另外,采样在数据可视化方面也有很多应用,可以帮助人们快速、直观地了解数据的结构和特性。
对于一些简单的分布,如均匀分布、高斯分布等,很多编程语言里都有直接的采样函数。然而,即使是这些简单分布,其采样过程也并不是显而易见的,仍需要精心设计。对于比较复杂的分布,往往并没有直接的采样函数可供调用,这时就需要其他更加复杂的采样方法。因此,对采样方法的深入理解是很必要的。
另一方面, 采样得到的样本集也可以看作是一种非参数模型, 即用较少量的样本点(经验分布) 来近似总体分布, 并刻画总体分布中的不确定性。 从这个角度来说, 采样其实也是一种信息降维, 可以起到简化问题的作用。 例如, 在训练机器学习模型时, 一般想要优化的是模型在总体分布上的期望损失(期望风险) , 但总体分布可能包含无穷多个样本点, 要在训练时全部用上几乎是不可能的, 采集和存储样本的代价也非常大。 因此, 一般采用总体分布的一个样本集来作为总体分布的近似, 称之为训练集, 训练模型的时候是最小化模型在训练集上损失函数(经验风险) 。 同理, 在评估模型时, 也是看模型在另外一个样本集(测试集) 上的效果。 这种信息降维的特性, 使得采样在数据可视化方面也有很多应用, 它可以帮助人们快速、 直观地了解总体分布中数据的结构和特性。

来源:https://blog.csdn.net/yly_3026925713/article/details/105335312

二、几种采样方法介绍

1.贝叶斯网络的采样

1)背景知识:

https://www.cnblogs.com/gswang/p/7508715.html
贝叶斯网络
贝叶斯网络通过一个有向无环图来表示一组随机变量跟它们的条件依赖关系。它通过条件概率分布来参数化。贝叶斯网络的全概率公式为:
在这里插入图片描述
如图是一个简单的贝叶斯网络,其对应的全概率公式为:P(a,b,c)=P(c∣a,b)P(b∣a)P(a)
在这里插入图片描述
比较复杂的贝叶斯网络,其对用的全概率公式为:在这里插入图片描述

P(x1,x2,x3,x4,x5,x6,x7)=P(x1)P(x2)P(x3)P(x4∣x1,x2,x3)P(x5∣x1,x3)P(x6∣x4)P(x7∣x4,x5)

2)对于没有观测变量的贝叶斯网络进行采样,使用的是祖先采样方法

参考文章:https://www.jianshu.com/p/c602eaad78c1
(注:观测变量就是在采样前值已经确定好的变量)
最简单的方法是祖先采样(Ancestral Sampling),核心思想是根据有向图的顺序,先对祖先节点进行采样,只有当某个节点的所有父节点都已完成采样,才对该节点进行采样。以下面的贝叶斯网络为例:
在这里插入图片描述
其采样过程为:先对Cloudy变量进行采样, 然后再对Sprinkler和Rain变量进行采样, 最后对WetGrass变量采样。
在这里插入图片描述

3)对于有观测变量的贝叶斯网络进行采样

最直接的方法是逻辑采样,还是利用祖先采样得到所有变量的取值。如果这个样本在观测变量上的采样值与实际观测值相同,则接受,否则拒绝,重新采样。
这种方法的缺点是采样效率非常低,随着观测变量个数增加,每个变量状态数目的上升,逻辑采样的效率急剧下降,实际中基本不可用。

**似然加权(likelihood weighting)采样的思想来源(**参考资料:概率图模型原理与技术 12.2.1)

考虑下图所示的贝叶斯网络模型:

在这里插入图片描述

假定我们在采样中的观测变量是SAT,其值为s1,也就是表示一个学生获得了SAT高分。如果我们仍然采取之前的采样方法进行采样,即:D与I都从它们的先验分布中采样,然后让S = s1,接下来以合适的方式对G与I进行采样。那么我们得到的所有样本当然都可以满足S = s1的条件,但是这出现了一个问题:此时,I仍然服从其先验分布,也就是说,该样本表示的学生是一个较为聪明的学生的概率是30%。但是这与我们的直觉不符合:既然S = s1,也就是说该学生获得了SAT高分,那么我们可以推断该学生是一个聪明的学生的概率(I = i0)应该比较大!

从上面举的例子中可以看出,当存在预测变量时,不能只采用祖先采样法进行采样了!我们需要做出调整。可以考虑一个假想的过程:在过程中,我们多次运行拒绝采样:在值I = i1的样本中,S = s1的样本可以占到80%;而在值I = i0的样本中,S = s1的样本只能占到5%。基于这个过程,我们可以认为前一种样本更容易出现,因此可以使用这里的80%、5%作为样本的重要性权值。这里的80%、5%代表的就是在采样过程中把所有的观测变量设为它们的观测值时,每个观测节点出现的概率。

重要性权值定义
在实际中可以参考重要性采样的思想,不再对观测变量进行采样,只对非观测变量采样,但是最终得到的样本需要附一个重要性权值:
在这里插入图片描述
其中E是观测变量集合,这样的采样方法称为似然加权采样,产生的样本权值用来表示观测变量取其相应的确定值的可能性,其可以用于后续的操作。举一个例子:在有观测变量(Sprikeler = T, WetGrass = T)时,可以先对Cloudy进行采样,再对Rain进行采样,对于Sprikeler、WetGrass则直接赋观察值,得到下面的一个样本:
在这里插入图片描述
这样得到的样本的重要性权值为:w 正比于 p(Sprinkler = T| Cloudy = T)p(WetGrass = T| Sprinkler = T,Rain = T) = 0.10.99 = 0.099
该式子可以理解为:当其他变量取得样本中的取值时(Cloudy = T,Rain = T),预测变量取得其确定值的可能性。


未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值