概率论用于表示不确定性声明的数学框架,提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。
在人工智能领域,概率论主要有两种用途:
- 概率法则告诉我们AI系统如何推理,据此我们设计出一些算法来计算或估算由概率论导出的表达式。
- 用概率和统计从理论上分析提出的AI系统的行为。
概率论使我们能够提出不确定性的声明,以及在不确定性存在的情况下进行推理;
信息论能使我们能够量化概率分布中的不确定性总量。
3.1 为什么要使用概率论
不确定性有3种可能的来源:
- 被建模系统内在的随机性
- 不完全观测
- 不完全建模
概率可以分为两类,分别是频率派概率和贝叶斯概率,前者直接与事件发生的频率相联系,如掷骰子出现某一点数的概率;后者涉及确定性水平,用概率表示一种信任度,如诊断病人患流感的概率。
概率论提供了一套形式化的逻辑,可以在给定一些命题的似然后,计算其他命题为真的似然。
3.2 概率分布
概率分布,描述随机变量或一簇随机变量在每一个可能状态下的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。
3.2.1 离散型随机变量和概率质量函数
离散型随机变量的概率分布可以用概率质量函数(PMF)来描述,用大写字母P表示。
概率质量函数将随机变量能取得的状态映射到取得该状态的概率。
概率质量函数可以同事作用于多个随机变量,这种多个随机变量的概率分布就是联合概率分布P(x,y)。
如果一个函数P是随机变量x的PMF,必满足如下3个必要条件:
- P的定义域须是x所有可能状态的集合
- 任一状态的概率0<=P(x)<=1
- ,即是归一化的
3.2.2 连续型随机变量和概率密度函数
连续型随机变量的概率分布用概率密度函数(PDF)来描述,用小写字母p表示。
概率密度函数的3个必要条件为:
- p的定义域须是x所有可能状态的集合
- p(x)>=0,注意,并不要求p(x)<=1
概率密度函数没有直接对特定状态给出概率,相对的给出了落在面积为的无限小区域内的概率为。
对概率密度函数求积分获得点集的真实概率质量。x落在集合S中的概率可以通过p(x)对这个集合求积分来得到。
3.3 边缘概率
有时我们知道了一组变量的联合概率分布,想知道其中一个子集的概率分布,这种定义在子集上的概率分布就是边缘概率分布。
对于离散型随机变量x,y,已知P(x,y),则可以根据求和法则计算P(x):
对于连续型随机变量,用积分代替求和:
3.4 条件概率
某个事件在给定其他事件发生时,出现的概率即为条件概率:
需要注意的是,条件概率和给定条件动作后会发生什么是完全不同的两个概念。一个人会说德语,那么他是德国人的概率很大,但是他的国籍不会因此改变。
3.5 条件概率的链式法则
任何多维随机变量的联合概率分布,都可以分解成单一变量的条件概率相乘的形式。
P(a,b,c) = P(a|b,c)P(b,c)
P(b,c) = P(b|c)P(c)
P(a,b,c) = P(a|b,c)P(b|c)P(c)
3.6 独立性和条件独立性
如果两个随机变量x,y的概率分布可以表示成两个因子的乘积形式,且一个因子只包含x,另一个因子只包含y,那么我们称这俩个随机变量是相互独立的。
P(x,y) = P(x)P(y),简化形式为:
如果关于x,y的条件概率分布,对于z的每一个值都可以写成乘积形式,那么我们称这两个随机变量x,y在给定随机变量z时,是条件独立的。
P(x,y|z) = P(x|z)P(y|z),简化形式为:
3.7 期望、方差和协方差
期望是指,x由分布P产生,f作用于x时,f(x)的平均值。
对于离散型随机变量,可以通过求和得到:
对于连续型随机变量,可以通过积分得到:
期望是线性的:,其中独立于x。
方差衡量的是对x根据概率分布进行采样时,随机变量x的函数值会呈现多大的差异:
当方差很小时,f(x)的值形成的簇接近其期望值。
标准差是方差的算术平方根。
协方差在某种意义上给出了两个变量,线性相关的强度,
以及这些变量的尺度:
协方差的绝对值很大,意味着变量值变化很大,且他们同时距离各自的均值很远。
如果协方差是正值,则两个变量都倾向于同时取得相对较大的值,
如果协方差是负值,则其中一个变量倾向于取得相对较大值,另一个倾向于取得相对较小值。
相关系数是将每个变量的贡献归一化,为了消除变量尺度的影响,只衡量变量间的相关性。
协方差和相关性是有联系的,但是概念不同。如果两个变量是相互独立的,那么他们的协方差为0,如果他们的协方差不为0,则一定相关。独立性和协方差具有完全不同的性质,独立性比零协方差要求更高,如果协方差为0,则一定没有线性关系,但是可能会有非线性关系,而独立性排除了非线性关系。
协方差矩阵是一个nxn的矩阵,且满足:
协方差矩阵的对角元是方差:
3.8 常用概率分布
- Bernoulli分布:单个二值随机变量的分布
- Multinoulli分布:具有k个不同状态的单个离散型随机变量的分布
- 高斯分布/正态分布:中心峰值的坐标也是均值
- 指数分布(Laplace分布):在x=0处取得边界点的分布,x<0则概率为0(x=u设置概率质量的峰值)
- Dirac分布(经验分布):概率分布中的所有质量集中在一个点上(Dirac分布经常作为经验分布的一个组成部分)
- 混合分布
3.9 两个常用函数的有用性质
logistic sigmoid 函数:
通常用来产生Bernoulli分布的参数,因为其范围是(0,1)在的取值范围内。函数在变量绝对值非常足够大的时候会出现饱和现象,函数会变得很平,对输入值的微小改变不敏感。
softplus 函数:
softplus函数可以用来产生正态分布的参数,因为其范围是,当处理包含sigmoid函数的表达式时,也经常出现
3.10 贝叶斯规则
由于通常使用来计算,所以不需要事先知道P(y)的信息。