概率论
随机试验
具备以下三个特点的试验称为随机试验:
- 可以在相同的条件下重复地运行;
- 每次试验的可能结果可能不止一个,并且能事先明确试验的所有可能结果;
- 进行一次试验之前不能确定哪一个结果会出现。
以下是一些随机试验的例子:
- 抛一枚硬币,观察正面 H H H、反面 T T T出现的情况。
- 抛一颗骰子,观察出现的点数。
- 在一批灯泡里任意抽取一只,测试它的寿命。
样本空间
对于随机试验,尽管在每次试验之前不能预知试验的结果,但试验的所有可能结果组成的集合是已知的。我们将随机试验
E
E
E的所有可能结果组成的集合称为
E
E
E的样本空间,记为
S
S
S。样本空间中的元素,称为样本点。
例如,给定以下随机试验
- E 1 E_1 E1:抛一枚硬币,观察正面 H H H、反面 T T T出现的情况。
- E 2 E_2 E2:抛一颗骰子,观察出现的点数。
-
E
3
E_3
E3:在一批灯泡里任意抽取一只,测试它的寿命。
对应的样本空间是: - S 1 : { H , T } S_1:\{H,T\} S1:{H,T}
- S 2 : { 1 , 2 , 3 , 4 , 5 , 6 } S_2:\{1,2,3,4,5,6\} S2:{1,2,3,4,5,6}
- S 3 : { t ∣ t ≥ 0 } S_3:\{t|t \geq 0\} S3:{t∣t≥0}
随机事件
试验
E
E
E的样本空间
S
S
S的子集称为
E
E
E的随机事件,简称为事件。
例如,令“将一枚硬币抛掷两次,观察正面
H
H
H、反面
T
T
T出现的情况”是一个随机试验
E
E
E,则其样本空间总共包含四个元素:
S
=
{
H
H
,
H
T
,
T
T
,
T
H
}
S = \{HH, HT, TT, TH\}
S={HH,HT,TT,TH}
我们可以定义一个事件“第一次出现的是
H
H
H”,即
A
1
=
{
H
H
,
H
T
}
A1 = \{HH, HT\}
A1={HH,HT}
还可以定义另一个事件“两次出现的是同一面”,即
A
2
=
{
H
H
,
T
T
}
A2 = \{HH, TT\}
A2={HH,TT}
显然,
A
1
A_1
A1和
A
2
A_2
A2都是样本空间的子集。
概率
设 E E E是随机试验, S S S是样本空间。对于 E E E的每一个事件 A A A赋予一个实数,记为 P ( A ) P(A) P(A),称为事件 A A A的概率。概率必须满足以下条件:
- 非负性:对于每一个事件 A A A,有 P ( A ) ≥ 0 P(A) ≥ 0 P(A)≥0;
- 规范性:对于必然发生的事件 S S S,有 P ( S ) = 1 P(S) = 1 P(S)=1;
- 可列可加性:设 A 1 、 A 2 、 . . . A_1 、A_2 、... A1、A2、...是两两互不相容的事件,即对于 A i ⋂ A j = ∅ ( i ≠ j ) A_i \bigcap A_j =\emptyset(i \neq j) Ai⋂Aj=∅(i=j),有 P ( A 1 ⋃ A 2 ⋃ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \bigcup A_2 \bigcup ...)=P(A_1)+P(A_2)+... P(A1⋃A2⋃...)=P(A1)+P(A2)+...。
令
A
A
A和
B
B
B为任意两个事件,
A
B
AB
AB表示两个事件同时发生,以下公式成立:
P
(
A
⋃
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
B
)
P(A \bigcup B) = P(A) + P(B) − P(AB)
P(A⋃B)=P(A)+P(B)−P(AB)
对于前面抛掷两次硬币的例子,如果
A
A
A表示“第一次是
H
H
H”,
B
B
B表示“两次结果都一样”,那么
A
B
AB
AB表示“两次都是
H
H
H”。
等可能概型
等可能概型是指符合以下两个条件的随机试验:
- 试验的样本空间只能包含有限个元素;
- 试验中每个基本事件(即每个结果)发生的可能性基本相同。
例如,一个口袋里装有6只球,其中有4只白球和2只红球。从袋中取球两次,每次随机地取一只,假设每只球都有相等概率被抽中。第一次取一球不放回袋中,第二次从剩余的球中再取一球。计算:(1)取到的两只球都是白球的概率,(2)取到的两只球至少有一只是白球的概率。
首先计算两只球都是白球的概率:
(
4
/
6
)
×
(
3
/
5
)
=
2
/
5
(4/6) × (3/5) = 2/5
(4/6)×(3/5)=2/5。然后,先计算两只球都是红球的概率:
(
2
/
6
)
×
(
1
/
5
)
=
1
/
15
(2/6) × (1/5) = 1/15
(2/6)×(1/5)=1/15,然后可以得到取到的两只球至少有一只是白球的概率:
1
−
(
1
/
15
)
=
14
/
15
1 − (1/15) = 14/15
1−(1/15)=14/15。
条件概率
设A和B是两个事件,且P(A) > 0,称
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A) = \frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB)
为在事件
A
A
A发生的条件下事件
B
B
B发生的条件概率。 不难验证,条件概率符合概率定义中的三个条件:
- 非负性:对于每一个事件 B B B,有 P ( B ∣ A ) ≥ 0 P(B|A) ≥ 0 P(B∣A)≥0;
- 规范性:对于必然发生的事件 S S S,有 P ( S ∣ A ) = 1 P(S|A) = 1 P(S∣A)=1;
- 可列可加性:设
B
1
、
B
2
、
.
.
.
B_1 、B_2 、...
B1、B2、...是两两互不相容的事件,则有:
P ( ⋃ i = 1 ∞ B i ∣ A ) = ∑ i = 1 ∞ P ( B i ∣ A ) P(\bigcup_{i=1}^\infty B_i|A) = \sum_{i=1}^\infty P(B_i|A) P(i=1⋃∞Bi∣A)=i=1∑∞P(Bi∣A)
例如,一个口袋里装有6只球,其中有4只白球和2只红球。从袋中取球两次,每次随机地取一只,假设每只球都有相等的概率被抽中。第一次取一球不放回袋中,第二次从剩余的球中再取一球。设事件
A
A
A为“第一次取到白球”,事件
B
B
B为“第二次取到白球”,计算条件概率
P
(
B
∣
A
)
P(B | A)
P(B∣A)。
首先计算
P
(
A
)
P(A)
P(A)。由于开始口袋中有6只球,其中有4只白球,因此第一次取到白球的概率
P
(
A
)
=
4
/
6
P(A) = 4/6
P(A)=4/6。然后计算
P
(
A
B
)
P(AB)
P(AB),即事件“两次都抽到白球”的概率:
P
(
A
B
)
=
4
6
×
3
5
=
2
5
P(AB) = \frac{4}{6} \times \frac{3}{5} = \frac{2}{5}
P(AB)=64×53=52
因此,条件概率计算如下:
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
=
2
5
×
6
4
=
3
5
P(B|A) = \frac{P(AB)}{P(A)} = \frac{2}{5} \times \frac{6}{4} = \frac{3}{5}
P(B∣A)=P(A)P(AB)=52×46=53
全概率公式
设 S S S为试验 E E E的样本空间, B 1 , B 2 , . . . , B n B_1, B_2, ..., B_n B1,B2,...,Bn为事件 E E E的一组事件,如果以下两个条件成立
- B i ⋂ B j = ∅ , i ≠ j , i , j = 1 , ⋯ , n B_i \bigcap B_j = \emptyset,i \neq j,i,j = 1,\cdots, n Bi⋂Bj=∅,i=j,i,j=1,⋯,n
- B 1 ⋃ B 2 ⋃ ⋯ ⋃ B n = S B_1 \bigcup B_2 \bigcup \cdots \bigcup B_n = S B1⋃B2⋃⋯⋃Bn=S
则称
B
1
,
B
2
,
⋯
,
B
n
B_1,B_2,\cdots,B_n
B1,B2,⋯,Bn为样本空间
S
S
S的一个划分。
例如,试验
E
E
E“掷一颗骰子观察其点数”样本空间为
S
=
{
1
,
2
,
3
,
4
,
5
,
6
}
S = \{1, 2, 3, 4, 5, 6\}
S={1,2,3,4,5,6},则
B
1
=
{
1
,
2
,
3
}
,
B
2
=
{
4
,
5
}
和
B
3
=
{
6
}
B_1 = \{1, 2, 3\},B_2 = \{4, 5\}和B_3 = \{6\}
B1={1,2,3},B2={4,5}和B3={6}是
S
S
S的一个划分。
设
A
A
A是试验
E
E
E的一个事件,
B
1
,
B
2
,
.
.
.
,
B
n
B_1, B_2, ..., B_n
B1,B2,...,Bn是其样本空间的一个划分,则以下全概率公式成立:
P
(
A
)
=
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(A) = \sum_{i = 1}^nP(A|B_i)P(B_i)
P(A)=i=1∑nP(A∣Bi)P(Bi)
贝叶斯公式
设
A
A
A和
B
B
B是随机试验
E
E
E的任意两个事件,以下贝叶斯公式成立:
P
(
B
∣
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
)
P(B|A) = \frac{P(A|B)P(B)}{P(A)}
P(B∣A)=P(A)P(A∣B)P(B)
可以进一步与全概率公式结合起来。令
B
1
,
B
2
,
.
.
.
,
B
n
B_1, B_2, ..., B_n
B1,B2,...,Bn是
S
S
S的一个划分,而且
P
(
B
i
)
>
0
(
i
=
1
,
2
,
.
.
.
,
n
)
P(B_i) > 0 (i = 1, 2,..., n)
P(Bi)>0(i=1,2,...,n),则有:
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j = 1}^nP(A|B_j)P(B_j)}
P(Bi∣A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
贝叶斯公式在人工智能中非常重要,产生了重要的贝叶斯学派。贝叶斯公式对于揭示信息认知加工过程与规律、实现有效的学习和判断决策都具有十分重要的理论意义和实践价值。
独立性
设
A
A
A和
B
B
B是两个随机事件,如果满足等式
P
(
A
B
)
=
P
(
A
)
P
(
B
)
P(AB) = P(A)P(B)
P(AB)=P(A)P(B)则称事件
A
A
A和
B
B
B相互独立。
两个事件相互独立的含义是其中一个事件已发生,不影响另一个事件发生的概率。在实际应用中,对于事件的独立性通常是根据事件的实际意义去判断。如果根据实际情况分析,两个事件之间没有关联或者关联很弱,那么就认为它们之间是相互独立的。例如,如果甲、乙两人同一天感冒,甲在中国,乙在美国,双方并未接触,则可以认为两个事件是独立的。如果甲、乙是住在同一个宿舍的舍友,那么就不能认为是相互独立的。
随机变量
将一枚硬币抛掷两次,观察出现正面
H
H
H和反面
T
T
T的情况,样本空间是
S
=
{
H
H
,
H
T
,
T
T
,
T
H
}
S = \{HH, HT, TT, TH\}
S={HH,HT,TT,TH}
以
X
X
X表示两次投掷得到正面
H
H
H的总数,则
X
X
X的取值是一个随机变量:
- X = 0 X = 0 X=0:当投掷结果是 { T T } \{TT\} {TT}时;
- X = 1 X = 1 X=1:当投掷结果是 { H T } \{HT\} {HT}或 { T H } \{TH\} {TH}时;
- X = 2 X = 2 X=2:当投掷结果是 { H H } \{HH\} {HH}时。
随机变量的取值随试验的结果而定,在试验之前不能预知取什么值,并且其取值有一定的的概率。随机变量的引入,使我们能够描述各种随机现象,并能利用数学方法对随机试验的结果进行深入分析。
离散型随机变量
取值是有限个或可列举无限个的随机变量称为离散型随机变量。例如,抛掷一枚硬币,只可能取正面和反面两个取值,因此是离散型随机变量。
设离散型随机变量
X
X
X可能的取值为$x_k (k = 1, 2,…)
,
,
,X
取各个可能值的概率,即事件
取各个可能值的概率,即事件
取各个可能值的概率,即事件{X = x_k}$的概率,为:
P
(
X
=
x
k
)
=
p
k
,
k
=
1
,
2
,
⋯
P(X = x_k) = p_k,k=1,2,\cdots
P(X=xk)=pk,k=1,2,⋯
上式称为离散型随机变量
X
X
X的分布律。
注意,根据概率的定义,
p
k
p_k
pk满足以下两个条件:
- p k ≥ 0 , k = 1 , 2 , ⋯ p_k \geq 0,k=1,2,\cdots pk≥0,k=1,2,⋯
- ∑ k = 1 ∞ p k = 1 \sum_{k=1}^\infty p_k = 1 ∑k=1∞pk=1
离散型随机变量分布
以下两种离散型随机变量经常被使用。
第一个是
(
0
−
1
)
(0 − 1)
(0−1)分布。设随机变量
X
X
X只能取0和1两个值,其分布律为
P
(
X
=
k
)
=
p
k
(
1
−
p
)
1
−
k
P(X = k) = p^k(1-p)^{1-k}
P(X=k)=pk(1−p)1−k
其中,
k
k
k的取值是0或1,
0
<
p
<
1
0 < p < 1
0<p<1。
第二个是二项分布。设
n
n
n是一个正整数,
k
k
k是一个不大于
n
n
n的非负整数,即
0
≤
k
≤
n
0 ≤ k ≤ n
0≤k≤n,某个随机事件
A
A
A发生的概率为
p
p
p,则在
n
n
n次试验中事件
A
A
A发生
k
k
k 次的概率为:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
1
−
k
P(X = k) = \left( \begin{matrix} n \\ k \end{matrix} \right) p^k(1-p)^{1-k}
P(X=k)=(nk)pk(1−p)1−k
显然,当
n
=
1
n = 1
n=1时,二项分布等价于
(
0
−
1
)
(0 − 1)
(0−1)分布。
随机变量的分布函数
对于非离散型随机变量,其取值不能一一列举,因此需要采用新的形式对离散型和非离散型随机变量进行统一描述。
设
X
X
X是一个随机变量,
x
x
x是任意实数,函数
F
(
x
)
=
P
(
X
≤
x
)
F(x) = P(X \leq x)
F(x)=P(X≤x)
称为
X
X
X的分布函数。
对于任意两个实数
x
1
x_1
x1和
x
2
x_2
x2且满足
x
1
<
x
2
x_1 < x_2
x1<x2,均有:
P
(
x
1
≤
X
≤
x
2
)
=
P
(
X
≤
x
2
)
−
P
(
X
≤
x
1
)
=
F
(
x
2
)
−
F
(
x
1
)
\begin{aligned} P(x_1 \leq X \leq x_2) &= P(X \leq x_2) - P(X \leq x_1) \\ &= F(x_2) - F(x_1) \end{aligned}
P(x1≤X≤x2)=P(X≤x2)−P(X≤x1)=F(x2)−F(x1)
因此,如果已知
X
X
X的分布函数,我们就知道
X
X
X落在任意区间
(
x
1
,
x
2
]
(x1, x2]
(x1,x2]的概率。从这个意义上说,分布函数完整地描述了随机变量的统计规律性。
分布律与分布函数
x | -1 | 2 | 3 |
---|---|---|---|
p k p_k pk | 0.25 | 0.50 | 0.25 |
给定上表所示的分布律,相应的分布函数定义如下:
F
(
x
)
=
{
0.00
x
<
−
1
0.25
−
1
≤
x
<
2
0.75
2
≤
x
<
3
1.00
x
≥
3
F(x) = \begin{cases} 0.00 & x \lt -1 \\ 0.25 & -1 \leq x \lt 2 \\ 0.75 & 2 \leq x \lt 3 \\ 1.00 & x \geq 3 \end{cases}
F(x)=⎩
⎨
⎧0.000.250.751.00x<−1−1≤x<22≤x<3x≥3
由此可见,分布函数可以全面地描述离散型随机变量。
连续型随机变量
如果对于随机变量
X
X
X的分布函数
F
(
x
)
F(x)
F(x),存在非负函数
f
(
x
)
f(x)
f(x),使对于任意实数
x
x
x有
F
(
x
)
=
∫
−
∞
x
f
(
t
)
d
t
F(x) = \int_{-\infty}^x f(t)dt
F(x)=∫−∞xf(t)dt
则称
X
X
X为连续型随机变量。
f
(
x
)
f (x)
f(x)称为
X
X
X的概率密度函数,具有以下性质:
- f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0
- ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x)dx = 1 ∫−∞∞f(x)dx=1
- 对于任意实数 x 1 x_1 x1和 x 2 ( x 1 ≤ x 2 ) x_2(x_1 ≤ x_2) x2(x1≤x2), P ( x 1 < X ≤ x 2 ) = F ( x 2 ) − F ( x 1 ) P(x_1 < X ≤ x_2) = F(x_2) − F(x_1) P(x1<X≤x2)=F(x2)−F(x1);
- 若 f ( x ) f(x) f(x)在点 x x x处连续,则有 F ′ ( x ) = f ( x ) F'(x) = f(x) F′(x)=f(x)。
均匀分布
若连续型随机变量
X
X
X具有概率密度
f
(
x
)
=
{
1
b
−
a
a
<
b
0
o
t
h
e
r
w
i
s
e
f(x) = \begin{cases} \frac{1}{b-a} & a \lt b \\ 0 & otherwise \end{cases}
f(x)={b−a10a<botherwise
则称
X
X
X在区间
(
a
,
b
)
(a, b)
(a,b)上服从均匀分布,记为
X
∼
U
(
a
,
b
)
X ∼ U(a, b)
X∼U(a,b)。
正态分布
若连续型随机变量
X
X
X具有概率密度
f
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
f(x)=2πσ1exp(−2σ2(x−μ)2)
其中
μ
\mu
μ和
σ
\sigma
σ实常数且
σ
>
0
\sigma > 0
σ>0,则称
X
X
X服从参数为
μ
\mu
μ和
σ
\sigma
σ的正态分布或高斯分布,记作
X
∼
N
(
μ
,
σ
2
)
X ∼ N(\mu, \sigma^2)
X∼N(μ,σ2)。
二维随机变量
之前只限于讨论单个随机变量的情况,实际问题中经常出现多个随机变 量的情况。例如,为了研究某一地区某一年龄段儿童的发育情况,需要 统计儿童的身高和体重。
设
(
X
,
Y
)
(X, Y )
(X,Y)是二维随机变量,对于任意实数
x
x
x和
y
y
y,二元函数
F
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
F(x,y) = P(X \leq x,Y \leq y)
F(x,y)=P(X≤x,Y≤y)
称为二维随机变量
(
X
,
Y
)
(X, Y )
(X,Y)的分布函数,或随机变量
X
X
X和
Y
Y
Y的联合分布函数。
P
(
x
1
<
X
≤
x
2
,
y
1
<
Y
≤
y
2
)
=
F
(
x
2
,
y
2
)
−
F
(
x
2
,
y
1
)
−
F
(
x
1
,
y
2
)
+
F
(
x
1
,
y
1
)
P(x_1 \lt X \leq x_2,y_1 \lt Y \leq y_2) = F(x_2,y_2) - F(x_2,y_1) - F(x_1,y_2) + F(x_1,y_1)
P(x1<X≤x2,y1<Y≤y2)=F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)
二维离散型随机变量
如果二维随机变量
(
X
,
Y
)
(X, Y )
(X,Y)全部可能的取值是有限对或可列无限多对,则称
(
X
,
Y
)
(X,Y)
(X,Y)是离散型的随机变量。设
(
X
,
Y
)
(X,Y)
(X,Y)所有的可能取值为
(
x
i
,
y
j
)
,
i
,
j
=
1
,
2
,
.
.
.
(x_i,y_j),i, j = 1, 2,...
(xi,yj),i,j=1,2,...,则
X
X
X和
Y
Y
Y的联合分布律定义为
P
(
X
=
x
,
Y
=
y
)
=
p
i
j
P(X = x,Y = y) = p_{ij}
P(X=x,Y=y)=pij
联合分布律通常使用表格的方式来表示:
x 1 x_1 x1 | x 2 x_2 x2 | ⋯ \cdots ⋯ | x i x_i xi | ⋯ \cdots ⋯ | |
---|---|---|---|---|---|
y 1 y_1 y1 | p 11 p_{11} p11 | p 21 p_{21} p21 | ⋯ \cdots ⋯ | p i 1 p_{i1} pi1 | ⋯ \cdots ⋯ |
y 2 y_2 y2 | p 12 p_{12} p12 | p 22 p_{22} p22 | ⋯ \cdots ⋯ | p i 2 p_{i2} pi2 | ⋯ \cdots ⋯ |
⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋱ \ddots ⋱ | ⋮ \vdots ⋮ | ⋯ \cdots ⋯ |
y j y_j yj | p 1 j p_{1j} p1j | p 2 j p_{2j} p2j | ⋯ \cdots ⋯ | p i j p_{ij} pij | ⋯ \cdots ⋯ |
⋮ \vdots ⋮ | ⋮ \vdots ⋮ | v d o t s vdots vdots | ⋯ \cdots ⋯ | ⋮ \vdots ⋮ | ⋯ \cdots ⋯ |
二维连续型随机变量
对于二维随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的分布函数
F
(
x
,
y
)
F(x,y)
F(x,y),如果存在非负的函数
f
(
x
,
y
)
f(x,y)
f(x,y)使 得对于任意
x
x
x和
y
y
y都有:
F
(
x
,
y
)
=
∫
−
∞
y
∫
−
∞
x
f
(
u
,
v
)
d
u
d
v
F(x,y) = \int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv
F(x,y)=∫−∞y∫−∞xf(u,v)dudv
则称
(
X
,
Y
)
(X,Y)
(X,Y)是连续型的二维随机变量,函数
f
(
x
,
y
)
f(x,y)
f(x,y)称为二维随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的概率密度,或成为随机变量X和Y的联合概率密度。
例如,给定概率密度:
f
(
x
,
y
)
=
{
2
e
−
(
2
x
+
y
)
x
>
0
,
y
>
0
0
o
t
h
e
r
w
i
s
e
f(x,y) = \begin{cases} 2e^{-(2x+y)} & x \gt 0,y \gt 0 \\ 0 & otherwise \end{cases}
f(x,y)={2e−(2x+y)0x>0,y>0otherwise
可计算分布函数为
F
(
x
,
y
)
=
(
1
−
e
−
2
x
)
(
1
−
e
−
y
)
F(x, y) = (1 − e^{−2x})(1 − e^{−y})
F(x,y)=(1−e−2x)(1−e−y),当
x
>
0
x > 0
x>0且
y
>
0
y > 0
y>0时。
边缘分布律
二维随机变量
(
X
,
Y
)
(X, Y )
(X,Y)作为一个整体,具有分布函数
F
(
x
,
y
)
F(x, y)
F(x,y),而
X
X
X和
Y
Y
Y都是随机变量,各自也有分布函数,分别记为
F
X
(
x
)
F_X(x)
FX(x)和
F
Y
(
y
)
F_Y(y)
FY(y),分别称为二维随机变量
(
X
,
Y
)
(X, Y )
(X,Y)关于X和关于Y的边缘分布函数,定义如下:
F
X
(
x
)
=
P
(
X
≤
x
,
Y
<
∞
)
=
F
(
x
,
∞
)
F
Y
(
y
)
=
P
(
X
<
∞
,
Y
≤
y
)
=
F
(
∞
,
y
)
F_X(x) = P(X \leq x,Y \lt \infty) = F(x,\infty) \\ F_Y(y) = P(X \lt \infty,Y \leq y) = F(\infty,y)
FX(x)=P(X≤x,Y<∞)=F(x,∞)FY(y)=P(X<∞,Y≤y)=F(∞,y)
随机变量
X
X
X和
Y
Y
Y的分布律分别定义为:
P
(
X
=
x
i
)
=
∑
j
=
1
∞
P
i
j
P
(
Y
=
y
j
)
=
∑
i
=
1
∞
P
i
j
P(X = x_i) = \sum_{j = 1}^\infty P_{ij} \\ P(Y = y_j) = \sum_{i = 1}^\infty P_{ij}
P(X=xi)=j=1∑∞PijP(Y=yj)=i=1∑∞Pij
上述式子也称为二维离散型随机变量
(
X
,
Y
)
(X, Y )
(X,Y)关于
X
X
X和
Y
Y
Y的边缘分布律。
边缘概率密度
对于连续型随机变量
(
X
,
Y
)
(X,Y)
(X,Y),设其概率密度为
f
(
x
,
y
)
f(x,y)
f(x,y),由于
F
X
(
x
)
=
F
(
x
,
∞
)
=
∫
−
∞
x
(
∫
−
∞
∞
f
(
x
,
y
)
d
y
)
d
x
F_X(x) = F(x,\infty) = \int_{-\infty}^x\left(\int_{-\infty}^\infty f(x,y)dy\right)dx
FX(x)=F(x,∞)=∫−∞x(∫−∞∞f(x,y)dy)dx
由此可知
X
X
X是一个连续型随机变量,而且其概率密度函数为:
f
X
(
x
)
=
∫
−
∞
∞
f
(
x
,
y
)
d
y
f_X(x) = \int_{-\infty}^\infty f(x,y)dy
fX(x)=∫−∞∞f(x,y)dy
同样,
Y
Y
Y也是一个连续型随机变量,而且其概率密度函数为:
f
Y
(
y
)
=
∫
−
∞
∞
f
(
x
,
y
)
d
x
f_Y(y) = \int_{-\infty}^\infty f(x,y)dx
fY(y)=∫−∞∞f(x,y)dx
f
X
(
x
)
f_X(x)
fX(x)和
f
Y
(
y
)
f_Y(y)
fY(y)分别是关于
X
X
X和关于
Y
Y
Y的边缘概率密度。
条件分布律
下面来考虑事件
{
Y
=
y
j
}
\{Y = y_j\}
{Y=yj}在已发生的条件下事件
{
X
=
x
i
}
\{X = x_i\}
{X=xi}发生的概率,也就是求事件
{
X
=
x
i
∣
Y
=
y
j
}
\{X = x_i | Y = y_j\}
{X=xi∣Y=yj}的概率。
设
(
X
,
Y
)
(X, Y )
(X,Y)是二维离散型随机变量,对于固定的
j
j
j,若
P
(
Y
=
y
j
)
>
0
P(Y = y_j) > 0
P(Y=yj)>0,则称:
P
(
X
=
x
i
∣
Y
=
y
j
)
=
P
(
X
=
x
i
,
Y
=
y
i
)
P
(
Y
=
y
j
)
P(X = x_i|Y = y_j) = \frac{P(X = x_i,Y = y_i)}{P(Y = y_j)}
P(X=xi∣Y=yj)=P(Y=yj)P(X=xi,Y=yi)
为在
Y
=
y
j
Y = y_j
Y=yj条件下随机变量
X
X
X的条件分布律。
类似地,对于固定的
i
i
i,若
P
(
X
=
x
i
)
>
0
P(X = x_i) > 0
P(X=xi)>0,则称:
P
(
Y
=
y
j
∣
X
=
x
i
)
=
P
(
X
=
x
i
,
Y
=
y
i
)
P
(
X
=
x
i
)
P(Y = y_j|X = x_i) = \frac{P(X = x_i,Y = y_i)}{P(X = x_i)}
P(Y=yj∣X=xi)=P(X=xi)P(X=xi,Y=yi)
为在
X
=
x
i
X = x_i
X=xi条件下随机变量
Y
Y
Y的条件分布律。
条件概率密度
设二维随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的概率密度为
f
(
x
,
y
)
f(x,y)
f(x,y),
(
X
,
Y
)
(X,Y)
(X,Y)关于
Y
Y
Y的边缘概率密度为
f
Y
(
y
)
f_Y(y)
fY(y)。若对于固定的y,fY(y) > 0,则在Y = y条件下X的条件概率密度定义为:
f
X
∣
Y
(
x
∣
y
)
=
f
(
x
,
y
)
f
Y
(
y
)
f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}
fX∣Y(x∣y)=fY(y)f(x,y)
与之对应地,在
Y
=
y
Y = y
Y=y条件下
X
X
X的条件分布函数定义为:
F
X
∣
Y
(
x
∣
y
)
=
∫
−
∞
x
f
(
x
,
y
)
f
Y
(
y
)
d
x
F_{X|Y}(x|y) = \int_{-\infty}^x \frac{f(x,y)}{f_Y(y)}dx
FX∣Y(x∣y)=∫−∞xfY(y)f(x,y)dx
类似地,我们也可以定义在X = x条件下Y的条件概率密度和条件分布函数。
相互独立的随机变量
设
F
(
x
,
y
)
F(x,y)
F(x,y)、
F
X
(
x
)
F_X(x)
FX(x)和
F
Y
(
y
)
F_Y(y)
FY(y)分别是二维随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的分布函数及边缘概率分布,如果对于所有的
x
x
x和
y
y
y有:
P
(
X
≤
x
,
Y
≤
y
)
=
P
(
X
≤
x
)
P
(
Y
≤
y
)
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
P(X \leq x,Y \leq y) = P(X \leq x)P(Y \leq y) \\ F(x, y) = F_X(x)F_Y(y)
P(X≤x,Y≤y)=P(X≤x)P(Y≤y)F(x,y)=FX(x)FY(y)
则称随机变量
X
X
X和
Y
Y
Y相互独立
当
X
X
X和
Y
Y
Y是离散型随机变量时,
X
X
X和
Y
Y
Y相互独立的条件是:
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
X
=
x
i
)
P
(
Y
=
y
j
)
P(X = x_i, Y = y_j) = P(X = x_i)P(Y = y_j)
P(X=xi,Y=yj)=P(X=xi)P(Y=yj)
当
X
X
X和
Y
Y
Y是连续型随机变量时,
X
X
X和
Y
Y
Y相互独立的条件是:
f
(
x
,
y
)
=
f
X
(
x
)
f
Y
(
y
)
f(x, y) = f_X(x)f_Y(y)
f(x,y)=fX(x)fY(y)
数学期望
设离散型随机变量
X
X
X的分布律为
P
(
X
=
x
k
)
=
p
k
(
k
≥
1
)
P(X = x_k) = p_k(k ≥ 1)
P(X=xk)=pk(k≥1),其数学期望定义为:
E
(
X
)
=
∑
k
=
1
∞
x
k
p
k
\mathbb{E}(X) = \sum_{k = 1}^\infty x_kp_k
E(X)=k=1∑∞xkpk
类似地,设连续型变量
X
X
X的概率密度为
f
(
x
)
f (x)
f(x),其数学期望定义为:
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
\mathbb{E}(X) = \int_{-\infty}^\infty xf(x)dx
E(X)=∫−∞∞xf(x)dx
例如,假定
P
(
X
=
0
)
=
0.3
,
P
(
X
=
1
)
=
0.5
,
P
(
X
=
2
)
=
0.2
P(X = 0) = 0.3,P(X = 1) = 0.5,P(X = 2) = 0.2
P(X=0)=0.3,P(X=1)=0.5,P(X=2)=0.2,则
X
X
X的数学期望计算如下:
E
(
X
)
=
0
×
0.3
+
1
×
0.5
+
2
×
0.2
=
0.9
\mathbb{E}(X) = 0 × 0.3 + 1 × 0.5 + 2 × 0.2 = 0.9
E(X)=0×0.3+1×0.5+2×0.2=0.9
随机变量函数的数学期望
设
Y
Y
Y是随机变量
X
X
X的连续函数,即
Y
=
g
(
X
)
Y = g(X)
Y=g(X)。如果
X
X
X是离散型随机变量,其分布律为
P
(
X
=
x
k
)
=
p
k
(
k
≥
1
)
P(X = x_k) = p_k(k ≥ 1)
P(X=xk)=pk(k≥1),则
Y
Y
Y的数学期望定义为:
E
(
Y
)
=
E
(
g
(
X
)
)
=
∑
k
=
1
∞
g
(
x
k
)
p
k
\mathbb{E}(Y) = \mathbb{E}(g(X))= \sum_{k = 1}^\infty g(x_k)p_k
E(Y)=E(g(X))=k=1∑∞g(xk)pk
如果
X
X
X是连续型随机变量,其概率密度为
f
(
x
)
f (x)
f(x),则
Y
Y
Y的数学期望定义为:
E
(
Y
)
=
E
(
g
(
X
)
)
=
∫
−
∞
∞
g
(
x
)
f
(
x
)
d
x
\mathbb{E}(Y) = \mathbb{E}(g(X))= \int_{-\infty}^\infty g(x)f(x)dx
E(Y)=E(g(X))=∫−∞∞g(x)f(x)dx
数学期望的性质
- 设 C C C为实常数,则有 E ( C ) = C \mathbb{E}(C) = C E(C)=C。
- 设 X X X是一个随机变量, C C C是常数,则有 E ( C X ) = C E ( X ) \mathbb{E}(CX) = C\mathbb{E}(X) E(CX)=CE(X)。
- 设 X X X和 Y Y Y是两个随机变量,则有 E ( X + Y ) = E ( X ) + E ( Y ) \mathbb{E}(X + Y) = \mathbb{E}(X) + \mathbb{E}(Y) E(X+Y)=E(X)+E(Y)。这一性质可以推广到任意有限个随机变量之和的情况。
- 设 X X X和 Y Y Y是两个相互独立的随机变量,则有 E ( X Y ) = E ( X ) E ( Y ) \mathbb{E}(XY) = \mathbb{E}(X)\mathbb{E}(Y) E(XY)=E(X)E(Y)。这一 性质可以推广到任意有限个相互独立的随机变量之积的情况。
方差
方差用于度量随机变量与其均值的偏离程度。设
X
X
X是一个随机变量,
X
X
X的方差定义为:
D
(
X
)
=
V
a
r
(
X
)
=
E
(
(
X
−
E
(
X
)
)
2
)
D(X) = Var(X) = \mathbb{E}((X - \mathbb{E}(X))^2)
D(X)=Var(X)=E((X−E(X))2)
我们通常将
D
(
X
)
\sqrt{D(X)}
D(X)记为
σ
(
X
)
\sigma(X)
σ(X),称为标准差或者均方差。
对于离散型随机变量,方差计算公式为
D
(
X
)
=
∑
k
=
1
∞
(
x
k
−
E
(
X
)
)
2
p
k
D(X) = \sum_{k = 1}^\infty(x_k - \mathbb{E}(X))^2p_k
D(X)=k=1∑∞(xk−E(X))2pk
对于连续型随机变量,方差计算公式为:
D
(
X
)
=
∫
−
∞
∞
(
x
−
E
(
X
)
)
2
f
(
x
)
d
x
D(X) = \int_{-\infty}^{\infty}(x - \mathbb{E}(X))^2f(x)dx
D(X)=∫−∞∞(x−E(X))2f(x)dx