概率空间--样本--事件--随机变量--

最新推荐文章于 2022-12-08 14:26:30 发布

zxyhhjs2017

最新推荐文章于 2022-12-08 14:26:30 发布

阅读量3.4k

点赞数 2

分类专栏：统计学

统计学专栏收录该内容

8 篇文章 10 订阅

订阅专栏

1 基本概念

概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

1.1 概率空间

说到概率，通常是指一个具有不确定性的event发生的可能性。例如，下周二下雨的概率。因此，为了正式地讨论概率论，我们首先要明确什么是可能事件。
正规说来，一个probability space是由三元组(Ω,F,P)定义：
- Ω为样本空间
- F⊆2Ω(Ω的幂集)为（可度量的）事件空间
- P为将事件E∈F映射到0～1真值区间的概率度量（概率分布），可以将P看作概率函数
注： Ω的幂集2Ω——是Ω的所有子集的集合，符号：P(Ω):={U|U⊆Ω}，|Ω|=n个元素，|P(Ω)|=2n个元素。

假设给定样本空间Ω，则对于事件空间F来说：
- F包含Ω本身和∅
- F对于并集闭合，例如：如果α,β∈F，则α∪β∈F
- F对于补集闭合，例如：如果α∈F，则(Ω∖α)∈F

Example1: 假如我们投掷一个（6面）骰子，那么可能的样本空间Ω={1,2,3,4,5,6}。我们可能感兴趣的事件是骰子点数是奇数还是偶数，那么这种情况下事件空间就是F={∅,{1,3,5},{2,4,6}}.

可以看到样本空间Ω为有限集时，就像上一个例子，我们通常令事件空间F为2Ω。这种策略并不完全通用，但是在实际使用中通常是有效的。然而，当样本空间为无限集时，我们需要仔细定义事件空间。
给定一个事件空间F，概率函数P需要满足几个公理：
- （非负）对于所有α∈F,P(α)≥0
- P(F)=1，事件空间的概率值为1
- （互斥事件的加法法则）对于所有α,β∈F和α∩β=∅,P(α∪β)=P(α)+P(β)

Example2: 回到掷骰子的例子，假设事件空间F为2Ω ，进一步地，定义F上的概率函数P为：
P({1})=P({2})=…=P({6})=16
那么这种概率分布P可以完整定义任意给出事件的发生概率（通过可加性公理）。例如，投掷点数为偶数的概率为：
P({2,4,6})=P({2})+P({4})+P({6})=16+16+16=12
因为任意事件（此处指样本空间内的投掷出各点数）之间都没有交集

1.2 随机变量

随机变量在概率论中扮演着一个重要角色。最重要的一个事实是，随机变量并不是变量，它们实际上是将（样本空间中的）结果映射到真值的函数。我们通常用一个大写字母来表示随机变量。
Example3: 还是以掷骰子为例。另X为取决于投掷结果的随机变量。X的一个自然选择是将i映射到值i，例如，将事件“投掷1点”映射到值1。我们也可以选择一些特别的映射，例如，我们有一个随机变量Y——将所有的结果映射到0，这就是一个很无聊的函数。或者随机变量Z——当i为奇数时，将结果i映射到2i；当i为偶数时，将结果i映射到i。

从某种意义上说，随机变量让我们可以将事件空间的形式概念抽象出来，通过定义随机变量来采集相关事件。举个例子，考虑Example1中投掷点数为奇／偶的事件空间。我们其实可以定义一个随机变量，当结果i为奇数时取值为1，否则随机变量取值为0。这种二元算计变量在实际中非常常见，通常以指示变量为人所知，它是因用于指示某一特定事件是否发生而得名。所以为什么我们要引进事件空间？就是因为当一个人在学习概率论（更严格来说）通过计量理论来学习时，样本空间和事件空间的区别非常重要。这个话题对于这个简短的复习来说太前沿了，因此不会涉及。不管怎样，最好记住事件空间并不总是简单的样本空间的幂集。
继续，我们后面主要会讨论关于随机变量的概率。虽然某些概率概念在不使用随机变量的情况下也能准确定义，但是随机变量让我们能提供一种对于概率论的更加统一的处理方式。取值为a的随机变量X的概率可以记为：

P (X = a) 或 P X (a)

同时，我们将随机变量

X的取值范围记为：

Val(X)

1.3 概率分布，联合分布，边缘分布

我们经常会谈论变量的分布。正式来说，它是指一个随机变量取某一特定值的概率，例如：
Example4：假设在投掷一个骰子的样本空间Ω上定义一个随机变量X，如果骰子是均匀的，则X的分布为：
PX(1)=PX(2)=…=PX(6)=16
注意，尽管这个例子和Example2类似，但是它们有着不同的语义。Example2中定义的概率分布是对于事件而言，而这个例子中是随机变量的概率分布。
我们用P(X)来表示随机变量X的概率分布。
有时候，我们会同时讨论大于一个变量的概率分布，这种概率分布称为联合分布，因为此事的概率是由所涉及到的所有变量共同决定的。这个可以用一个例子来阐明。
Example5：在投掷一个骰子的样本空间上定义一个随机变量X。定义一个指示变量Y，当抛硬币结果为正面朝上时取1，反面朝上时取0。假设骰子和硬币都是均匀的，则X和Y的联合分布如下：

P	X=1	X=2	X=3	X=4	X=5	X=6
Y=0	1/12	1/12	1/12	1/12	1/12	1/12
Y=1	1/12	1/12	1/12	1/12	1/12	1/12

像前面一样，我们可以用P(X=a,Y=b)或PX,Y(a,b)来表示X取值为a且Y取值为b时的概率。用P(X,Y)来表示它们的联合分布。
假定有一个随机变量X和Y的联合分布，我们就能讨论X或Y的边缘分布。边缘分布是指一个随机变量对于其自身的概率分布。为了得到一个随机变量的边缘分布，我们将该分布中的所有其它变量相加，准确来说，就是：

P (X) = \sum b \in V a l (Y) P (X, Y = b) \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots (1)

之所以取名为边缘分布，是因为如果我们将一个联合分布的一列（或一行）的输入相加，将结果写在它的最后（也就是边缘），那么该结果就是这个随机变量取该值时的概率。当然，这种思路仅在联合分布涉及两个变量时有帮助。

1.4 条件分布

条件分布为概率论中用于探讨不确定性的关键工具之一。它明确了在另一随机变量已知的情况下（或者更通俗来说，当已知某事件为真时）的某一随机变量的分布。
正式地，给定Y=b时，X=a的条件概率定义为：

P (X = a | Y = b) = P ( X = a , Y = b ) P ( Y = b ) \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots \dots (2)

注意，当

Y=b的概率为0时，上式不成立。

Example6：假设我们已知一个骰子投出的点数为奇数，想要知道投出的点数为“1”的概率。令X为代表点数的随机变量，Y为指示变量，当点数为奇数时取值为1，那么我们期望的概率可以写为：
P(X=1|Y=1)=P(X=1,Y=1)P(Y=1)=1612=13
条件概率的思想可以自然地扩展到一个随机变量的分布是以多个变量为条件时，即：