得益于刚刚结课的《概率论与数理统计》,对于随机事件,连续型和离散型变量和概率分布,条件概率,古典概型,等可能概型,几何概型,期望、方差和协方差的基本概念都比较熟悉,在这里就不多叙述了,其基础概念还是很容易学明白的。值得一提的是全概率公式和贝叶斯公式。
全概率公式和贝叶斯公式
首先我们看一下概率乘法公式和样本空间划分的定义;
由条件概率公式,可以得到概率的乘法公式:
$P(AB)=P(B|A)P(A) =P(A|B)P(B) $
如果事件组,满足
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,... 两两互斥,即
B
i
∩
B
j
=
ϕ
,
i
≠
j
,
i
,
j
=
1
,
2
,
.
.
.
B_i\cap B_j = \phi,i \neq j ,i,j = 1,2,...
Bi∩Bj=ϕ,i=j,i,j=1,2,...,且
P
(
B
i
)
>
0
,
i
=
1
,
2
,
.
.
.
P(B_i)>0,i=1,2,...
P(Bi)>0,i=1,2,...
B
1
∪
B
2
∪
.
.
.
=
Ω
B_1 \cup B_2 \cup ... = \Omega
B1∪B2∪...=Ω
则称事件组
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...是样本空间
Ω
\Omega
Ω 的一个划分。
全概率公式
设
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...是样本空间 $ \Omega$ 的一个划分,
A
A
A 为任一事件,则
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
A
∣
B
i
)
P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)
P(A)=∑i=1∞P(Bi)P(A∣Bi)
称为全概率公式。
根据全概率公式和概率乘法公式,我们可以得到:
贝叶斯公式
设
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...是样本空间 $ \Omega$ 的一个划分,则对任一事件
A
(
P
(
A
)
>
0
)
A(P(A)>0)
A(P(A)>0) ,有
$P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,… $
称上式为贝叶斯公式,称
P
(
B
i
)
(
i
=
1
,
2
,
.
.
.
)
P(B_i)(i=1,2,...)
P(Bi)(i=1,2,...) 为先验概率,
P
(
B
i
∣
A
)
(
i
=
1
,
2
,
.
.
.
)
P(B_i|A)(i=1,2,...)
P(Bi∣A)(i=1,2,...)为后验概率。
在实际中,常取对样本空间 Ω \Omega Ω 的有限划分 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 。 B i B_i Bi 视为导致试验结果 A A A 发生的“原因”,而 P ( B i ) P(B_i) P(Bi) 表示各种“原因”发生的可能性大小,故称为先验概率; P ( B i ∣ A ) P(B_i|A) P(Bi∣A) 则反应当试验产生了结果 A A A 之后,再对各种“原因”概率的新认识,故称为后验概率 。
贝叶斯公式也是在机器学习中朴素贝叶斯的核心。