贝叶斯原理是英国数学家托马斯·贝叶斯于18 世纪提出的,当我们不能直接计算一件事情(A)发生的可能性大小的时候,可以间接的计算与这件事情有关的事情(X,Y,Z)发生的可能性大小,从而间接判断事情(A)发生的可能性大小。
在介绍贝叶斯原理之前,先介绍几个与概率相关的概念。
1,概率相关概念
概率用于描述一件事情发生的可能性大小,用数学符号P(x)
表示,x
表示随机变量,P(x)
表示x
的概率。
随机变量根据变量取值是否连续,可分为离散型随机变量和连续型随机变量。
联合概率由多个随机变量共同决定,用P(x, y)
表示,含义为“事件x
与事件y
同时发生的概率”。
条件概率也是由多个随机变量共同决定,用P(x|y)
表示,含义为“在事件y
发生的前提下,事件x
发生的概率。”
边缘概率:从 P(x, y)
推导出 P(x)
,从而忽略 y
变量。
- 对于离散型随机变量,通过联合概率
P(x, y)
在y
上求和, 可得到P(x)
,这里的P(x)
就是边缘概率。 - 对于连续型随机变量,通过联合概率
P(x, y)
在y
上求积分, 可得到P(x)
,这里的P(x)
就是边缘概率。
概率分布:将随机变量所有可能出现的值,及其对应的概率都展现出来,就能得到这个变量的概率分布,概率分布分为两种,分别是离散型和连续型。
常见的离散型数据分布模型有:
- 伯努利分布:表示单个随机变量的分布,且该变量的取值只有两个,0 或 1。例如抛硬币(不考虑硬币直立的情况)的概率分布就是伯努利分布。数学公式如下:
- P(x = 0) = 1 - λ
- P(x = 1) = λ
- 多项式分布:也叫分类分布,描述了一个具有 k 个不同状态的单个随机变量。这里的 k,是有限的数值,如果 k 为 2,那就变成了伯努利分布。
- P(x = k) = λ
- 二项式分布
- 泊松分布
常见的连续型数据分布模型有:
- 正态分布,也叫高斯分布,是最重要的一种。
- 均匀分布
- 指数分布
- 拉普拉斯分