概率空间--样本--事件--随机变量--

1 基本概念

概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

1.1 概率空间

说到概率,通常是指一个具有不确定性的event发生的可能性。例如,下周二下雨的概率。因此,为了正式地讨论概率论,我们首先要明确什么是可能事件。
正规说来,一个probability space是由三元组(Ω,F,P)定义:
- Ω样本空间
- F2Ω(Ω的幂集)为(可度量的)事件空间
- P为将事件EF映射到0~1真值区间的概率度量(概率分布),可以将P看作概率函数
注: Ω的幂集2Ω——是Ω的所有子集的集合,符号:P(Ω):={U|UΩ}|Ω|=n个元素,|P(Ω)|=2n个元素。

假设给定样本空间Ω,则对于事件空间F来说:
- F包含Ω本身和
- F对于并集闭合,例如:如果α,βF,则αβF
- F对于补集闭合,例如:如果αF,则(Ωα)F

Example1: 假如我们投掷一个(6面)骰子,那么可能的样本空间Ω={1,2,3,4,5,6}。我们可能感兴趣的事件是骰子点数是奇数还是偶数,那么这种情况下事件空间就是F={,{1,3,5},{2,4,6}}.

可以看到样本空间Ω为有限集时,就像上一个例子,我们通常令事件空间F2Ω。这种策略并不完全通用,但是在实际使用中通常是有效的。然而,当样本空间为无限集时,我们需要仔细定义事件空间。
给定一个事件空间F,概率函数P需要满足几个公理:
- (非负)对于所有αF,P(α)0
- P(F)=1,事件空间的概率值为1
- (互斥事件的加法法则)对于所有α,βFαβ=,P(αβ)=P(α)+P(β)

Example2: 回到掷骰子的例子,假设事件空间F2Ω ,进一步地,定义F上的概率函数P为:
P({1})=P({2})==P({6})=16
那么这种概率分布P可以完整定义任意给出事件的发生概率(通过可加性公理)。例如,投掷点数为偶数的概率为:
P({2,4,6})=P({2})+P({4})+P({6})=16+16+16=12
因为任意事件(此处指样本空间内的投掷出各点数)之间都没有交集

1.2 随机变量

随机变量在概率论中扮演着一个重要角色。最重要的一个事实是,随机变量并不是变量,它们实际上是将(样本空间中的)结果映射到真值的函数。我们通常用一个大写字母来表示随机变量。
Example3: 还是以掷骰子为例。 另X为取决于投掷结果的随机变量。X的一个自然选择是将i映射到值i,例如,将事件“投掷1点”映射到值1。我们也可以选择一些特别的映射,例如,我们有一个随机变量Y——将所有的结果映射到0,这就是一个很无聊的函数。或者随机变量Z——当i为奇数时,将结果i映射到2i;当i为偶数时,将结果i映射到i

从某种意义上说,随机变量让我们可以将事件空间的形式概念抽象出来,通过定义随机变量来采集相关事件。举个例子,考虑Example1中投掷点数为奇/偶的事件空间。我们其实可以定义一个随机变量,当结果i为奇数时取值为1,否则随机变量取值为0。这种二元算计变量在实际中非常常见,通常以指示变量为人所知,它是因用于指示某一特定事件是否发生而得名。所以为什么我们要引进事件空间?就是因为当一个人在学习概率论(更严格来说)通过计量理论来学习时,样本空间和事件空间的区别非常重要。这个话题对于这个简短的复习来说太前沿了,因此不会涉及。不管怎样,最好记住事件空间并不总是简单的样本空间的幂集。
继续,我们后面主要会讨论关于随机变量的概率。虽然某些概率概念在不使用随机变量的情况下也能准确定义,但是随机变量让我们能提供一种对于概率论的更加统一的处理方式。取值为a的随机变量X的概率可以记为:

P(X=a)PX(a)

同时,我们将随机变量 X的取值范围记为: Val(X)

1.3 概率分布,联合分布,边缘分布

我们经常会谈论变量的分布。正式来说,它是指一个随机变量取某一特定值的概率,例如:
Example4:假设在投掷一个骰子的样本空间Ω上定义一个随机变量X,如果骰子是均匀的,则X的分布为:
PX(1)=PX(2)==PX(6)=16
注意,尽管这个例子和Example2类似,但是它们有着不同的语义。Example2中定义的概率分布是对于事件而言,而这个例子中是随机变量的概率分布。
我们用P(X)来表示随机变量X的概率分布。
有时候,我们会同时讨论大于一个变量的概率分布,这种概率分布称为联合分布,因为此事的概率是由所涉及到的所有变量共同决定的。这个可以用一个例子来阐明。
Example5:在投掷一个骰子的样本空间上定义一个随机变量X。定义一个指示变量Y,当抛硬币结果为正面朝上时取1,反面朝上时取0。假设骰子和硬币都是均匀的,则XY的联合分布如下:

PX=1X=2X=3X=4X=5X=6
Y=01/121/121/121/121/121/12
Y=11/121/121/121/121/121/12

像前面一样,我们可以用P(X=a,Y=b)PX,Y(a,b)来表示X取值为aY取值为b时的概率。用P(X,Y)来表示它们的联合分布。
假定有一个随机变量XY的联合分布,我们就能讨论XY边缘分布。边缘分布是指一个随机变量对于其自身的概率分布。为了得到一个随机变量的边缘分布,我们将该分布中的所有其它变量相加,准确来说,就是:

P(X)=bVal(Y)P(X,Y=b)(1)

之所以取名为边缘分布,是因为如果我们将一个联合分布的一列(或一行)的输入相加,将结果写在它的最后(也就是边缘),那么该结果就是这个随机变量取该值时的概率。当然,这种思路仅在联合分布涉及两个变量时有帮助。

1.4 条件分布

条件分布为概率论中用于探讨不确定性的关键工具之一。它明确了在另一随机变量已知的情况下(或者更通俗来说,当已知某事件为真时)的某一随机变量的分布。
正式地,给定Y=b时,X=a的条件概率定义为:

P(X=a|Y=b)=P(X=a,Y=b)P(Y=b)(2)

注意,当 Y=b的概率为0时,上式不成立。

Example6:假设我们已知一个骰子投出的点数为奇数,想要知道投出的点数为“1”的概率。令X为代表点数的随机变量,Y为指示变量,当点数为奇数时取值为1,那么我们期望的概率可以写为:
P(X=1|Y=1)=P(X=1,Y=1)P(Y=1)=1612=13
条件概率的思想可以自然地扩展到一个随机变量的分布是以多个变量为条件时,即:

P(X=a|Y=b,Z=c)=P(X=a,Y=b,Z=c)P(Y=b,Z=c)

我们用P(X|Y=b)来表示当Y=b时随机变量X的分布,也可以用P(X|Y)来表示X的一系列分布,其中每一个都对应不同的Y可以取的值。


转载:http://blog.csdn.net/u012566895/article/details/51220127

注:

总结:

  • 样本:样本就是所有可能出现的情况,即研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。就是研究的对象。

  • 事件:一般是样本空间的子集,即某一个样本出现的情况,或某几个样本同时出现的情况,或某一个样本出现另一个样本不出现的情况等等。

  • 随机变量:随机变量是一个映射函数,即将事件映射为某一具体的数值。

  • 随机变量的分布:即相当于出现某一个时间的分布,如果这个事件是某一样本的出现,即相当于样本的概率分布

文章联系:与convariate shift中的条件概率,样本概率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值