概率论用于表示不确定性声明的数学框架,提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。
在人工智能领域,概率论主要有两种用途:
- 概率法则告诉我们AI系统如何推理,据此我们设计出一些算法来计算或估算由概率论导出的表达式。
- 用概率和统计从理论上分析提出的AI系统的行为。
概率论使我们能够提出不确定性的声明,以及在不确定性存在的情况下进行推理;
信息论能使我们能够量化概率分布中的不确定性总量。
3.1 为什么要使用概率论
不确定性有3种可能的来源:
- 被建模系统内在的随机性
- 不完全观测
- 不完全建模
概率可以分为两类,分别是频率派概率和贝叶斯概率,前者直接与事件发生的频率相联系,如掷骰子出现某一点数的概率;后者涉及确定性水平,用概率表示一种信任度,如诊断病人患流感的概率。
概率论提供了一套形式化的逻辑,可以在给定一些命题的似然后,计算其他命题为真的似然。
3.2 概率分布
概率分布,描述随机变量或一簇随机变量在每一个可能状态下的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。
3.2.1 离散型随机变量和概率质量函数
离散型随机变量的概率分布可以用概率质量函数(PMF)来描述,用大写字母P表示。
概率质量函数将随机变量能取得的状态映射到取得该状态的概率。
概率质量函数可以同事作用于多个随机变量,这种多个随机变量的概率分布就是联合概率分布P(x,y)。
如果一个函数P是随机变量x的PMF,必满足如下3个必要条件:
- P的定义域须是x所有可能状态的集合
- 任一状态的概率0<=P(x)<=1
- ,即是归一化的
3.2.2 连续型随机变量和概率密度函数
连续型随机变量的概率分布用概率密度函数(PDF)来描述,用小写字母p表示。
概率密度函数的3个必要条件为:
- p的定义域须是x所有可能状态的集合
- p(x)>=0,注意,并不要求p(x)<=1