背景
在学习集成学习时,周志华老师的西瓜书中出现了 P ( ⋅ ) P(·) P(⋅)和 P ( ⋅ ∣ ⋅ ) P(·|·) P(⋅∣⋅)分别为概率质量函数,条件概率质量函数,在此进行扩充。
(注:研究一个随机变量,不只要看它能取什么值,更重要的是更重要的是各种取值的概率分布!!!!)
概率函数(分布律)-> 离散型
概率质量函数(Probability Mass Function,PMF)
用函数形式表达概率,如
P
r
o
b
=
P
(
X
=
a
i
)
(
i
=
1
,
2
,
3
,
4
,
5
,
6
)
Prob = P(X = a_i)(i = 1, 2, 3, 4, 5,6)
Prob=P(X=ai)(i=1,2,3,4,5,6)
表示X分别为1, 2,3…,6的概率,但是一次只能表示一个随机变量的值
概率分布
概率分布就是将足有可能出现的情况以及情况相对应的概率值全部列出来
概率分布函数(累积分布函数)-> 离散型
累积分布函数 Accumulative Distribution Function(ADF)
设离散型随机变量
X
X
X的分布律是
P
(
X
=
X
k
)
=
p
k
(
k
=
1
,
2
,
3....
)
P(X=X_k) = p_k(k=1, 2, 3....)
P(X=Xk)=pk(k=1,2,3....)则
F
(
x
)
=
P
(
X
≤
x
)
=
∑
x
k
≤
x
p
k
F(x)=P(X\leq x) = \sum_{x_k \leq x}p_k
F(x)=P(X≤x)=xk≤x∑pk
由于
F
(
x
)
F(x)
F(x)是
X
X
X取
≤
x
\leq x
≤x的所有
x
k
x_k
xk的概率之和,顾称
F
(
x
)
F(x)
F(x)为累积概率函数或概率分布函数。
概率密度函数和概率密度分布函数 -> 连续型
等价于离散型的概率函数
概率密度函数(Probability Density Function PDF)
定义
密度函数:取一个定点
x
x
x,则按照分布函数的定义,事件
{
x
<
X
<
x
+
h
}
\{x < X < x+h\}
{x<X<x+h}的概率
(
h
>
0
为
常
数
)
(h > 0为常数)
(h>0为常数),因为
F
(
x
+
h
)
−
F
(
x
)
F(x+h)-F(x)
F(x+h)−F(x),所以比值
F
(
x
+
h
)
−
F
(
x
)
h
\frac {F(x+h)-F(x)}{h}
hF(x+h)−F(x)可以解释为在
x
x
x附近
h
h
h长的区间
(
x
,
x
+
h
)
(x, x+h)
(x,x+h)内,单位长度所占的概率,另
h
→
0
h \to0
h→0,则这个比的极限,即
F
′
(
x
)
=
f
(
x
)
F'(x) = f(x)
F′(x)=f(x),也就是说
x
x
x点处(无穷小区段内)单位长概率,或者说,它反映了概率在
x
x
x点处的“密集程度”。概率密度函数公式:
P
(
a
≤
X
≤
b
)
=
F
(
b
)
−
F
(
a
)
=
∫
a
b
f
(
x
)
d
x
P(a \leq X \leq b) = F(b)-F(a) = \displaystyle\int^b_af(x)dx
P(a≤X≤b)=F(b)−F(a)=∫abf(x)dx
此处的概率就是求面积
左图是
F
(
x
)
F(x)
F(x)连续型随机变量分布函数,右图为
f
(
x
)
f(x)
f(x)连续型随机变量的概率密度函数,概率密度函数是分布函数的导函数。
概率密度和质量函数的区别
概率密度函数是对连续型随机变量定义的,本是不是概率,只有对其积分之后才是概率(某个特定值上的概率为0),但是概率质量函数是随机变量在各特定值上的概率。