基本概率统计知识
摘要:闲来无事,把基础的概率统计知识复习一遍,主要参考方开泰《统计分布》。
文章目录
事件和概率
随机试验
在一定条件下一定出现的现象叫必然事件
,在一定条件下必然不出现的现象叫不可能事件
。有许多现象在一定条件下,可能出现,可能不出现,这种现象称为随机事件
,或简称事件
。E.g., 事件A: “掷一枚质地均匀的硬币,正面向上”,它可能发生。我们常常通过随机试验
来观察随机事件的统计规律性,E.g., 事件"正面向上"是随机试验"掷一枚质地均匀的硬币"的一个可能结果。
一般地,设
E
E
E为一试验,如果不能事先准确地预言它的结果,而且在相同条件下可以重复进行,就称
E
E
E为一随机试验
。以
ω
\omega
ω表示它的一个可能的结果,称
ω
\omega
ω为E的一基本事件
。全体基本事件的集合
Ω
=
{
ω
}
\Omega = \{\omega\}
Ω={ω}称为基本事件空间
或样本空间
。
E.g., E E E表示在一个箱子里有10个球,上面分别标以 1 , 2 , … , 10 1,2,\dots,10 1,2,…,10,若从箱子里随机地取一个球,令 ω i \omega_i ωi表示球上的数字是 i i i,则 Ω = { ω 1 , … , ω 10 } \Omega = \{\omega_1,\dots,\omega_{10}\} Ω={ω1,…,ω10}。
事件的运算
(1) 如果事件 A A A发生必然导致事件 B B B发生,就说事件 B B B包含 A A A,或者说事件 A A A包含于 B B B,记做 A ⊂ B A \subset B A⊂B。如果 A ⊂ B A\subset B A⊂B且 B ⊂ A B \subset A B⊂A,则A和B相等,记做 A = B A = B A=B。
(2) "两事件
A
A
A和
B
B
B中至少有一个发生"也是一个事件,称此事件为
A
A
A与
B
B
B的并
,记作
A
∪
B
A \cup B
A∪B。
(3) "两事件
A
A
A和
B
B
B同时发生"也是一个事件,称此事件为
A
A
A和
B
B
B的交
,记作
A
∩
B
A \cap B
A∩B。
(4) "事件
A
A
A发生,而事件
B
B
B不发生"也是一个事件,称此事件为
A
A
A与
B
B
B的差
,记作
A
−
B
A - B
A−B。
(5) 如果两个事件
A
A
A与
B
B
B不可能同时发生,即
A
∩
B
=
∅
A \cap B = \emptyset
A∩B=∅,则称
A
A
A与
B
B
B互不相容
,或者说互斥
。
(6) 如果 n n n个事件 A 1 , … , A n A_1,\dots, A_n A1,…,An中的任意两个事件是互斥的,就说 A 1 , … , A n A_1, \dots, A_n A1,…,An互斥。
可从集合论的观点看待事件,因为对事件引进的关系和通常在集合论中引进的相应的关系一致。参见下表。
表1. 集合论与概率论的术语对照表
符号 | 集合论 | 概率论 |
---|---|---|
Ω \Omega Ω | 空间 | 样本空间;必然事件 |
∅ \emptyset ∅ | 空集 | 不可能事件 |
ω ∈ Ω \omega \in \Omega ω∈Ω | Ω \Omega Ω中的点 | 样本点 |
{ ω } \{\omega\} {ω} | 单点集 | 基本事件 |
A ⊂ Ω A\subset \Omega A⊂Ω | Ω \Omega Ω的子集 A A A | 事件 A A A |
A ⊂ B A \subset B A⊂B | 集合 A A A是集合 B B B的子集 | 事件 A A A包含于事件 B B B |
A = B A = B A=B | 集合 A A A与集合 B B B相等 | 事件 A A A与 B B B相等 |
A ∪ B A\cup B A∪B | 集合 A A A与 B B B的和 | 事件 A A A和事件 B B B至少有1个发生 |
A ∩ B A\cap B A∩B | 集合 A A A与 B B B的交 | 事件 A A A与 B B B同时发生,简记为 A B AB AB |
A c A^c Ac | 集合 A A A的余集,i.e., Ω − A \Omega - A Ω−A | 事件 A A A的逆事件 |
A − B A - B A−B | 集合 A A A与 B B B之差 | 事件 A A A发生而 B B B不发生 |
A ∩ B = ∅ A\cap B = \emptyset A∩B=∅ | 集合 A A A与 B B B没有公共元素 | 事件 A A A与 B B B互不相容 |
概率及其公理化定义
几种概率计算方法
- 古典型
对于某一随机事件 E E E,如果
(i)全体基本事件 ω 1 , … , ω n \omega_1, \dots, \omega_n ω1,…,ωn只有有限个;
(ii) 每个基本事件出现的可能性都相同。
则称 E E E为古典型随机试验
。
在古典型随机试验中,任意事件 A A A对应的概率定义为
P ( A ) = 事件 A 包含的基本事件数 ( k ) / 基本事件总数 ( n ) P(A) = 事件A包含的基本事件数(k) / 基本事件总数(n) P(A)=事件A包含的基本事件数(k)/基本事件总数(n) - 几何型
一般地,设某一随机试验,其结果(看作一个点)必落在 Ω \Omega Ω中,并具有均匀性
,且试验结果必落在 Ω \Omega Ω中,而且落在某区域 A ⊂ Ω A \subset \Omega A⊂Ω中的可能性大小与 A A A的度量大小成正比,而与 A A A的位置及形状无关,那么事件 A A A的概率定义为
P ( A ) = L ( A ) / L ( Ω ) P(A) = L(A) / L(\Omega) P(A)=L(A)/L(Ω) - 频率
设 E E E为一随机试验, A A A为其中任一事件,在相同的条件下,把 E E E独立重复试验 n n n次,以 f n ( A ) f_n(A) fn(A)表示事件 A A A在这 n n n次试验中出现的次数,比值
F n ( A ) = f n ( A ) / n F_n(A) = f_n(A) / n Fn(A)=fn(A)/n
称为事件 A A A在这 n n n次试验中出现的频率
, f n ( A ) f_n(A) fn(A)称为 A A A在这 n n n次试验中出现的频数。
*概率的公理化定义
近代概率论给出了事件与概率的严格定义,源于《测度论》。
定义1.1 设
Ω
\Omega
Ω是抽象的点
ω
\omega
ω的集,
Ω
\Omega
Ω中的一些子集
A
A
A所成的类为
F
\mathcal{F}
F. 如果
F
\mathcal{F}
F满足下列条件
(1)
Ω
∈
F
\Omega \in \mathcal{F}
Ω∈F;
(2) 如果
A
∈
F
A \in \mathcal{F}
A∈F, 则
A
c
∈
F
A^c \in \mathcal{F}
Ac∈F;
(3) 如果
A
n
∈
F
(
n
=
1
,
2
,
…
)
A_n \in \mathcal{F} (n = 1,2,\dots)
An∈F(n=1,2,…),则
⋃
n
=
1
∞
A
n
∈
F
\bigcup_{n=1}^\infty A_n \in \mathcal{F}
⋃n=1∞An∈F。
则称
F
\mathcal{F}
F为
Ω
\Omega
Ω的一个
σ
\sigma
σ-代数。
定义1.2 设
P
(
A
)
A
∈
F
P(A) A\in \mathcal{F}
P(A)A∈F是定义在
σ
\sigma
σ-代数
F
\mathcal{F}
F上的实值集函数,如果它满足下列条件
(1) 对每个
A
∈
F
A\in \mathcal{F}
A∈F,有
0
≤
P
(
A
)
≤
1
0 \leq P(A) \leq 1
0≤P(A)≤1;
(2)
P
(
Ω
)
=
1
P(\Omega) = 1
P(Ω)=1;
(3) 如果
A
n
∈
F
(
n
=
1
,
2
,
…
)
A_n \in \mathcal{F} (n = 1,2,\dots)
An∈F(n=1,2,…),且
A
i
∩
A
j
=
∅
,
i
!
=
j
A_i \cap A_j = \emptyset, i != j
Ai∩Aj=∅,i!=j,则有
P
(
⋃
n
=
1
∞
A
n
)
=
∑
n
=
1
∞
P
(
A
n
)
,
P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n),
P(n=1⋃∞An)=n=1∑∞P(An),
就称
P
(
A
)
P(A)
P(A)为
F
\mathcal{F}
F上的概率测度
,或简称概率
,而称
F
\mathcal{F}
F中的集为事件
1,三元组
(
Ω
,
F
,
P
)
(\Omega, \mathcal{F}, P)
(Ω,F,P)为概率空间
。
简要来说,
(1)
Ω
\Omega
Ω是样本空间,是所有可能结果的集合;
(2)
F
\mathcal{F}
F是事件的集合,事件是样本空间的子集,基本事件是样本空间的元素;
(3)
P
P
P为概率函数,该函数
P
:
F
→
[
0
,
1
]
P: \mathcal{F} \rightarrow [0,1]
P:F→[0,1]将事件空间中每一个事件映射到从0到1的实值。
根据上述说法,可以归纳出概率的性质:
(1)
P
(
∅
)
=
0
P(\emptyset) = 0
P(∅)=0
(2) 如果
A
A
A和
B
B
B为两事件,且
B
⊂
A
B \subset A
B⊂A,则
0
≤
P
(
A
−
B
)
=
P
(
A
)
−
P
(
B
)
0 \leq P(A - B) = P(A) - P(B)
0≤P(A−B)=P(A)−P(B)
从而,
P
(
A
)
≥
P
(
B
)
P(A) \geq P(B)
P(A)≥P(B),且
P
(
A
c
)
=
1
−
P
(
A
)
P(A^c) = 1 - P(A)
P(Ac)=1−P(A)。
(3) 对任意
n
n
n个事件
A
1
,
…
,
A
n
A_1, \dots, A_n
A1,…,An,有
P
(
⋃
i
=
1
n
A
i
)
≤
∑
i
=
1
n
P
(
A
i
)
.
P(\bigcup_{i=1}^n A_i) \leq \sum_{i=1}^n P(A_i).
P(i=1⋃nAi)≤i=1∑nP(Ai).
(4) 对任意两个事件
A
A
A和
B
B
B,有
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
∩
B
)
P(A\cup B) = P(A) + P(B) - P(A\cap B)
P(A∪B)=P(A)+P(B)−P(A∩B)
(5) 若$A_1 \supset A_2 \supset \dots
是一个单调下降的事件序列,
是一个单调下降的事件序列,
是一个单调下降的事件序列,A = \bigcap_{n=1}^\infty A_n$,则
P
(
A
)
=
lim
n
→
∞
P
(
A
n
)
.
P(A) = \lim_{n\rightarrow \infty} P(A_n).
P(A)=n→∞limP(An).
若$A_1 \subset A_2 \subset \dots
是一个单调上升的事件序列,
是一个单调上升的事件序列,
是一个单调上升的事件序列,A = \bigcup_{n=1}^\infty A_n$,则
P
(
A
)
=
lim
n
→
∞
P
(
A
n
)
.
P(A) = \lim_{n\rightarrow \infty} P(A_n).
P(A)=n→∞limP(An).
这5条性质都比较容易理解。
条件概率
条件概率
P
(
A
∣
B
)
P(A|B)
P(A∣B)是指在事件
B
B
B已发生的情况下,事件
A
A
A发生的概率。
条件概率公式:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
≥
P
(
A
)
P(A|B) = \frac{P(AB)}{P(B)} \geq P(A)
P(A∣B)=P(B)P(AB)≥P(A)
条件概率具有如下的性质:
(1)
0
≤
P
(
A
∣
B
)
≤
1
0 \leq P(A|B) \leq 1
0≤P(A∣B)≤1;
(2)
P
(
Ω
∣
B
)
=
1
P(\Omega|B) = 1
P(Ω∣B)=1;
(3) 若
A
1
,
…
,
A
n
,
…
A_1,\dots,A_n,\dots
A1,…,An,…是互不相容事件
,则
P
(
⋃
n
=
1
∞
A
n
∣
B
)
=
∑
n
=
1
∞
P
(
A
n
∣
B
)
.
P(\bigcup_{n=1}^\infty A_n | B) = \sum_{n=1}^\infty P(A_n |B).
P(n=1⋃∞An∣B)=n=1∑∞P(An∣B).
定理1.1(乘法公式) 设
A
1
,
…
,
A
n
A_1,\dots,A_n
A1,…,An为
n
≥
2
n\geq2
n≥2个事件,且
P
(
A
1
A
2
…
,
A
n
−
1
)
>
0
P(A_1A_2\dots,A_{n-1}) > 0
P(A1A2…,An−1)>0,则
P
(
A
1
…
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
P
(
A
3
∣
A
1
A
2
)
…
P
(
A
n
∣
A
1
…
A
n
−
1
)
P(A_1\dots A_n) = P(A_1)P(A_2 | A_1) P(A_3 | A_1A_2)\dots P(A_n | A_1\dots A_{n-1})
P(A1…An)=P(A1)P(A2∣A1)P(A3∣A1A2)…P(An∣A1…An−1)
设
A
1
,
…
A_1,\dots
A1,…为有限个或无穷个互不相容的事件,且
⋃
n
=
1
∞
A
n
=
Ω
,
P
(
A
i
)
>
0
,
i
=
1
,
2
,
…
\bigcup_{n=1}^\infty A_n = \Omega, P(A_i) > 0, i=1,2,\dots
⋃n=1∞An=Ω,P(Ai)>0,i=1,2,…,则称
{
A
1
,
A
2
,
…
}
\{A_1,A_2,\dots\}
{A1,A2,…}为空间的一个划分
。
定理1.2(全概率公式) 设
A
1
,
A
2
,
…
A_1,A_2,\dots
A1,A2,…为空间
Ω
\Omega
Ω的一个划分,则对任一事件
A
A
A,有
P
(
A
)
=
∑
n
=
1
∞
P
(
A
n
)
P
(
A
∣
A
n
)
P(A) = \sum_{n=1}^\infty P(A_n) P(A|A_n)
P(A)=n=1∑∞P(An)P(A∣An)
定理1.3(贝叶斯(Bayes)公式) 设
A
1
,
A
2
,
…
A_1,A_2,\dots
A1,A2,…为空间
Ω
\Omega
Ω的一个划分,则对任一事件
A
A
A,若
P
(
A
)
>
0
P(A) > 0
P(A)>0,有
P
(
A
m
∣
A
)
=
P
(
A
∣
A
m
)
P
(
A
m
)
P
(
A
)
=
P
(
A
∣
A
m
)
P
(
A
m
)
∑
n
=
1
∞
P
(
A
n
)
P
(
A
∣
A
n
)
P(A_m | A) = \frac{P(A|A_m)P(A_m)}{P(A)} = \frac{P(A|A_m)P(A_m)}{\sum_{n=1}^\infty P(A_n)P(A|A_n)}
P(Am∣A)=P(A)P(A∣Am)P(Am)=∑n=1∞P(An)P(A∣An)P(A∣Am)P(Am)
独立性
若事件 A A A发生与否和事件 B B B发生与否无关,则称事件 A A A与 B B B是相互独立的,此时有 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A),且 P ( A B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ) P(AB) = P(B)P(A|B) = P(A)P(B) P(AB)=P(B)P(A∣B)=P(A)P(B)。
定义1.3 设
A
A
A和
B
B
B为两个事件,如满足
P
(
A
B
)
=
P
(
A
)
P
(
B
)
,
P(AB) = P(A)P(B),
P(AB)=P(A)P(B),
则称事件
A
A
A和事件
B
B
B是相互独立的。
定义1.4 设
A
1
,
…
,
A
n
A_1, \dots, A_n
A1,…,An是n个事件,如果对任意的
s
(
2
≤
s
≤
n
)
s(2 \leq s \leq n)
s(2≤s≤n),任意
1
≤
i
1
<
i
2
<
⋯
<
i
s
≤
n
1\leq i_1 < i_2 < \dots < i_s \leq n
1≤i1<i2<⋯<is≤n,有
P
(
A
i
1
,
…
,
A
i
s
)
=
∏
j
=
1
s
P
(
A
i
j
)
,
P(A_{i_1},\dots,A_{i_s}) = \prod_{j=1}^s P(A_{i_j}),
P(Ai1,…,Ais)=j=1∏sP(Aij),
我们说 A 1 , … , A n A_1,\dots,A_n A1,…,An这n个事件相互独立。
References
随机变量及其分布
离散型随机变量
定义1.5 如果随机变量
X
X
X只能取有限个或者可数个值,并以各种确定的概率取这些不同的值,则称
X
X
X为离散型随机变量
.
设
X
X
X的取值为
x
1
,
…
,
x
i
x_1, \dots, x_i
x1,…,xi,相应的概率为
p
i
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
…
p_i = P(X = x_i),i=1,2,\dots
pi=P(X=xi),i=1,2,…,显然
{
p
i
}
\{p_i\}
{pi}满足
(1)
p
i
≥
0
,
i
=
1
,
2
,
…
p_i \geq 0, i = 1,2,\dots
pi≥0,i=1,2,…;
(2)
∑
i
=
1
∞
p
i
=
1
\sum_{i=1}^\infty p_i = 1
∑i=1∞pi=1.
若
p
i
>
0
p_i > 0
pi>0,则相应的
x
i
x_i
xi称为
X
X
X的支撑点,通常用一个二行的数组(称作它的分布)来表示
(
x
1
x
2
x
3
…
p
1
p
2
p
3
…
)
\left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)
(x1p1x2p2x3p3……)
连续型随机变量
定义1.6 对于随机变量
X
X
X,如果存在一个非负可积函数
f
(
x
)
f(x)
f(x),使得
P
(
a
<
X
<
b
)
=
∫
a
b
f
(
x
)
d
x
P(a < X < b) = \int_a^b f(x)\text{d}x
P(a<X<b)=∫abf(x)dx
对一切
−
∞
<
a
<
b
<
+
∞
-\infty < a < b < +\infty
−∞<a<b<+∞成立,则称
X
X
X为连续型随机变量
。此时
f
(
x
)
f(x)
f(x)称为
X
X
X的分布密度函数
,简称密度
.
分布函数
定义1.7 设
X
X
X为随机变量,令
F
(
x
)
=
P
(
X
≤
x
)
,
−
∞
<
x
<
∞
,
F(x) = P(X \leq x), -\infty < x < \infty,
F(x)=P(X≤x),−∞<x<∞,
则称
F
(
x
)
F(x)
F(x)是
X
X
X的概率分布函数或简称分布函数。
若
X
X
X是离散型随机变量,则它的分布函数为
F
(
x
)
=
∑
i
:
x
i
≤
x
p
i
.
F(x) = \sum_{i:x_i \leq x} p_i.
F(x)=i:xi≤x∑pi.
当
X
X
X是连续型随机变量时,它的分布函数为
F
(
x
)
=
∫
−
∞
x
f
(
t
)
d
t
F(x) = \int_{-\infty}^x f(t) \text{d}t
F(x)=∫−∞xf(t)dt
有些分布是离散型分布和连续型分布的叠加。
定义1.8 两个随机变量 X X X和 Y Y Y若有相同的分布函数,则记作 X = d Y X \overset{d}{=} Y X=dY.
具有相同分布的随机变量
X
X
X和
Y
Y
Y可能代表完全不同的实际问题。
随机变量的函数(若有意义)仍为随机变量。如
X
X
X是随机变量,则
X
2
,
e
X
,
1
/
(
1
+
X
2
)
,
sin
(
X
)
X^2, e^X, 1/(1+X^2), \sin(X)
X2,eX,1/(1+X2),sin(X)仍为随机变量。
随机变量的特征数
在一些问题中,不需要知道随机变量
X
X
X的一切概率性质,只需要知道它的某些性质。
由分布函数
F
(
x
)
F(x)
F(x)算出来的,代表
F
(
X
)
F(X)
F(X)某些特性的数,被称为分布函数
F
(
X
)
F(X)
F(X)的特征数
。
数学期望
若
X
X
X为离散型随机变量,有概率分布
(
x
1
x
2
x
3
…
p
1
p
2
p
3
…
)
\left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)
(x1p1x2p2x3p3……)
,那么它的数学期望是
E
(
X
)
=
∑
i
x
i
p
i
,
E(X) = \sum_i x_ip_i,
E(X)=i∑xipi,
它反映了
X
X
X的平均性质,有时候称
E
(
x
)
E(x)
E(x)为
X
X
X的均值
。
若连续型随机变量
X
X
X的概率密度函数为
f
(
x
)
f(x)
f(x),那么它的数学期望为
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
.
E(X) = \int_{-\infty}^\infty xf(x)\text{d} x.
E(X)=∫−∞∞xf(x)dx.
数学期望的性质
(1) 常数的数学期望等于常数:
E
(
c
)
=
c
E(c) = c
E(c)=c;
(2) 若
c
c
c为常数,则有
E
(
X
+
c
)
=
E
(
X
)
+
c
E(X + c) = E(X) + c
E(X+c)=E(X)+c;
(3) 若
c
c
c为常数,则有
E
(
c
X
)
=
c
E
(
X
)
E(cX) = cE(X)
E(cX)=cE(X);
(4) 若
X
X
X和
Y
Y
Y是两个随机变量,则
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X + Y) = E(X) + E(Y)
E(X+Y)=E(X)+E(Y);
(5) 若随机变量
X
X
X和
Y
Y
Y独立,则
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
E(XY) = E(X)E(Y)
E(XY)=E(X)E(Y).
方差
定义1.9 若随机变量 X X X的数学期望 E ( X ) E(X) E(X)存在,且 E [ X − E ( X ) ] 2 < ∞ E[X - E(X)]^2 < \infty E[X−E(X)]2<∞存在,则 X X X的方差 Var ( X ) = E [ X − E ( X ) ] 2 \text{Var}(X) = E[X - E(X)]^2 Var(X)=E[X−E(X)]2;它的开方叫做 X X X的标准差,记作 σ ( X ) \sigma(X) σ(X).
当
X
X
X是离散型随机变量时,容易导出
Var
(
X
)
=
∑
i
p
i
[
x
i
−
E
(
X
)
]
2
.
\text{Var}(X) = \sum_i p_i[x_i - E(X)]^2.
Var(X)=i∑pi[xi−E(X)]2.
当
X
X
X是连续型随机变量时,
Var
(
X
)
=
∫
−
∞
∞
[
x
−
E
(
X
)
]
2
f
(
x
)
d
x
.
\text{Var}(X) = \int_{-\infty}^\infty [x - E(X)]^2f(x)\text{d}x.
Var(X)=∫−∞∞[x−E(X)]2f(x)dx.
当
Var
(
X
)
<
∞
\text{Var}(X)<\infty
Var(X)<∞时,称
X
X
X有方差存在,否则称
X
X
X的方差不存在。
方差具有如下性质
(1) 如随机变量
X
X
X的方差
Var
(
X
)
\text{Var}(X)
Var(X)存在,则
Var
(
a
X
+
b
)
=
a
2
Var
(
X
)
\text{Var}(aX+b) = a^2\text{Var}(X)
Var(aX+b)=a2Var(X)
(2) 在计算中,有时常用下面的公式
V
a
r
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
.
Var(X) = E(X^2) - [E(X)]^2.
Var(X)=E(X2)−[E(X)]2.
(3) 若随机变量
X
X
X的方差
Var
(
X
)
\text{Var}(X)
Var(X)存在,则对任意
ϵ
>
0
\epsilon >0
ϵ>0,有
P
{
∣
X
−
E
(
X
)
∣
≥
ϵ
}
≤
Var
(
X
)
ϵ
2
P\{|X - E(X)| \geq \epsilon \} \leq \frac{\text{Var}(X)}{\epsilon^2}
P{∣X−E(X)∣≥ϵ}≤ϵ2Var(X)
(4) 若
Var
(
X
)
=
0
\text{Var}(X) = 0
Var(X)=0,则
P
(
X
=
E
(
X
)
)
=
1
P(X = E(X)) = 1
P(X=E(X))=1
高阶矩
高阶矩时对数学期望和方差的进一步推广。
定义1.10 记 μ r ′ ( b ) ≡ E [ ( X − b ) r ] \mu_r'(b) \equiv E[(X-b)^r] μr′(b)≡E[(X−b)r],它称为随机变量 X X X关于 b b b的 r r r阶矩(若存在)。特别地,当 b = 0 b = 0 b=0时,称为 X X X的 r r r阶原点矩,并简记为 μ r ′ \mu_r' μr′;当 b = E ( X ) b = E(X) b=E(X)时,称为 X X X的 r r r阶中心矩,简记为 μ r \mu_r μr.
定义1.11
γ
1
=
μ
3
/
μ
2
3
/
2
\gamma_1 = \mu_3 / \mu_2^{3/2}
γ1=μ3/μ23/2称为随机变量
X
X
X的偏斜系数
;
γ
2
=
μ
4
/
μ
2
2
−
3
\gamma_2 = \mu_4/\mu_2^2 - 3
γ2=μ4/μ22−3称为随机变量
X
X
X的峰态系数
;
C
X
=
σ
(
X
)
/
E
(
X
)
C_X = \sigma(X) / E(X)
CX=σ(X)/E(X)称为随机变量
X
X
X的变异系数
。
利用 γ 1 \gamma_1 γ1和 γ 2 \gamma_2 γ2,可以检验一个分布是不是正态分布或对分布函数进行分类,构造近似分布。
定义1.12
v
r
′
(
b
)
≡
E
[
∣
X
−
b
∣
r
]
v_r'(b) \equiv E[|X - b|^r]
vr′(b)≡E[∣X−b∣r]称为随机变量
X
X
X关于
b
b
b的r阶绝对矩
;若
b
=
0
b = 0
b=0,称它为
X
X
X的r阶绝对原点矩
,记为
v
r
′
v_r'
vr′;若
b
=
E
(
X
)
b = E(X)
b=E(X),称它为
X
X
X的r阶绝对中心矩
,记为
v
r
v_r
vr.
众数、分位点和中位数
定义 1.15 众数是指使得频率函数或密度函数达到极大值的点。当 X X X为离散型随机变量时,若 p j ≥ p i p_j \geq p_i pj≥pi对一切 i ≠ j i\neq j i=j成立,则称 x j x_j xj为 X X X的众数;当 X X X为连续型随机变量时,若 f ( x 0 ) = max x f ( x ) f(x_0) = \max_x f(x) f(x0)=maxxf(x),则称 x 0 x_0 x0为 X X X的众数。
定义 1.16 给定常数
0
<
p
<
1
0 < p < 1
0<p<1,若存在
α
p
\alpha_p
αp,使得
P
(
X
<
α
p
)
≤
p
≤
P
(
X
≤
α
p
)
,
P(X < \alpha_p) \leq p \leq P(X \leq \alpha_p),
P(X<αp)≤p≤P(X≤αp),
则称
α
p
\alpha_p
αp为随机变量
X
X
X的p分位点
。当
p
=
1
/
2
p = 1/2
p=1/2时,相应
α
1
/
2
\alpha_{1/2}
α1/2叫做随机变量
X
X
X的中位数
。
若随机变量
X
X
X的分布密度是(柯西分布)
f
(
x
)
=
1
π
(
x
2
+
1
)
,
−
∞
<
x
<
∞
,
f(x) = \frac{1}{\pi(x^2+1)}, -\infty< x< \infty,
f(x)=π(x2+1)1,−∞<x<∞,
其数学期望不存在,这是因为
x
f
(
x
)
xf(x)
xf(x)的广义积分不收敛,不过它的中位数是0。
矩母函数与特征函数
有些时候可以将分布函数转化为另一种形式,使后者比较好处理。
定义1.17 随机变量
X
X
X的矩母函数
M
(
t
)
M(t)
M(t)定义为
M
(
t
)
=
E
(
e
t
x
)
,
−
h
<
t
<
h
,
M(t) = E(e^{tx}), -h < t < h,
M(t)=E(etx),−h<t<h,
这里
e
e
e是自然对数的底数,
h
>
0
h>0
h>0为某个常数。
显然,若
X
X
X为连续型随机变量,其密度函数为
f
(
x
)
f(x)
f(x),则
M
(
t
)
=
∫
−
∞
∞
e
t
x
f
(
x
)
d
x
.
M(t) = \int_{-\infty}^\infty e^{tx}f(x) \text{d} x.
M(t)=∫−∞∞etxf(x)dx.
通过矩母函数可以方便地算
X
X
X的各阶原点矩。矩母函数在处理一些问题上比较方便,但不是每一个分布函数都存在矩母函数。于是人们在寻找对一切分布函数都存在的分析工具,就产生了特征函数。为此首先要引进复随机变量的概念。记
e
i
t
x
=
E
(
cos
(
t
X
)
)
+
i
E
(
sin
(
t
X
)
)
e^{itx} = E(\cos(tX)) + iE(\sin(tX))
eitx=E(cos(tX))+iE(sin(tX))
定义1.18 随机变量
X
X
X的特征函数
定义为
ϕ
(
t
)
=
E
(
e
i
t
x
)
.
\phi(t) = E(e^{itx}).
ϕ(t)=E(eitx).
显然,当
X
X
X为离散型随机变量时,
ϕ
(
t
)
=
∑
k
cos
(
t
x
k
)
p
k
+
i
∑
k
sin
(
t
x
k
)
p
k
=
∑
k
E
i
t
x
k
p
k
.
\phi(t) = \sum_k \cos(tx_k)p_k + i\sum_k \sin(tx_k)p_k = \sum_k E^{itx_k}p_k.
ϕ(t)=k∑cos(txk)pk+ik∑sin(txk)pk=k∑Eitxkpk.
当
X
X
X为连续型随机变量时,
ϕ
(
t
)
=
∫
−
∞
∞
cos
(
t
x
)
f
(
x
)
d
x
+
i
∫
−
∞
∞
sin
(
t
x
)
f
(
x
)
d
x
=
∫
−
∞
∞
e
i
t
x
f
(
x
)
d
x
.
\phi(t) = \int_{-\infty}^\infty \cos(tx)f(x)\text{d}x + i \int_{-\infty}^\infty \sin(tx)f(x)\text{d}x = \int_{-\infty}^\infty e^{itx} f(x) \text{d}x.
ϕ(t)=∫−∞∞cos(tx)f(x)dx+i∫−∞∞sin(tx)f(x)dx=∫−∞∞eitxf(x)dx.
特征函数总是存在的。他有很多很好的性质,比如:
(1)
ϕ
(
t
)
\phi(t)
ϕ(t)是一个有界的连续函数,
∣
ϕ
(
t
)
∣
≤
1
|\phi(t)| \leq 1
∣ϕ(t)∣≤1对一切
t
t
t成立;
(2)
ϕ
(
0
)
=
1
\phi(0) = 1
ϕ(0)=1;
(3) 若随机变量
X
X
X有
r
r
r阶原点矩存在,则
μ
r
′
=
1
i
r
ϕ
(
r
)
(
0
)
\mu_r' = \frac{1}{i^r}\phi^{(r)}(0)
μr′=ir1ϕ(r)(0);反之,由
ϕ
(
r
)
(
0
)
\phi^{(r)}(0)
ϕ(r)(0)存在不一定保证
X
X
X有
r
r
r阶原点矩,但可以证明
X
X
X有
r
−
1
r-1
r−1阶原点矩存在。
(4) 若随机变量
X
X
X的各阶原点矩都存在,则它的特征函数为
ϕ
(
t
)
=
1
+
∑
r
=
1
∞
μ
r
′
(
i
t
)
r
r
!
\phi(t) = 1 + \sum_{r = 1}^\infty \mu_r' \frac{(it)^r}{r!}
ϕ(t)=1+r=1∑∞μr′r!(it)r
(5) 若随机变量
X
X
X的特征函数为
ϕ
(
t
)
\phi(t)
ϕ(t),则
Y
=
a
+
b
X
Y = a + bX
Y=a+bX(a,b为实常数)的特征函数为
ψ
(
t
)
=
e
i
a
t
ϕ
(
b
t
)
\psi(t) = e^{iat}\phi(bt)
ψ(t)=eiatϕ(bt).
(6) 特征函数与分布函数是一一对应的。即,若
X
X
X的分布函数和特征函数分别是
F
(
x
)
F(x)
F(x)和
ϕ
(
t
)
\phi(t)
ϕ(t),
Y
Y
Y的分布函数和特征函数分别是
G
(
y
)
G(y)
G(y)和
ψ
(
t
)
\psi(t)
ψ(t),则
F
≡
G
F \equiv G
F≡G当且仅当
ϕ
≡
ψ
\phi \equiv \psi
ϕ≡ψ.该性质表明处理特征函数等价于处理分布函数。
定义1.19 若随机变量
X
X
X的各阶原点矩都存在,
{
μ
(
r
)
′
}
\{\mu_{(r)}'\}
{μ(r)′}为它的原点阶乘矩,
μ
(
0
)
′
=
1
\mu_{(0)'} = 1
μ(0)′=1,令
G
(
t
)
=
∑
r
=
0
∞
t
r
r
!
μ
(
r
)
′
,
G(t) = \sum_{r = 0}^\infty \frac{t^r}{r!}\mu_{(r)}',
G(t)=r=0∑∞r!trμ(r)′,
它称为
X
X
X的阶乘矩母函数
。
(7) M ( t ) = G ( e t − 1 ) M(t) = G(e^t - 1) M(t)=G(et−1).
随机向量及其分布
随机向量
定义1.20 若
X
1
,
…
,
X
n
X_1, \dots, X_n
X1,…,Xn是
n
n
n个随机变量,由他们组成的一个数组
x
=
(
X
1
,
…
,
X
n
)
\mathbf{x} = (X_1, \dots, X_n)
x=(X1,…,Xn), 叫做随机向量
。
X
1
,
…
,
X
n
X_1, \dots, X_n
X1,…,Xn叫做
x
x
x的分量。当
n
=
1
n = 1
n=1时,随机向量就化为随机变量。
定义1.21 设
x
=
(
X
1
,
…
,
X
n
)
\mathbf{x} = (X_1, \dots, X_n)
x=(X1,…,Xn)为一随机向量。若存在有限个或可数个
n
n
n维数组
a
1
=
(
a
11
,
…
,
a
1
n
)
\mathbf{a}_1 = (a_{11}, \dots, a_{1n})
a1=(a11,…,a1n),
a
2
=
(
a
21
,
…
,
a
2
n
)
\mathbf{a}_2 = (a_{21}, \dots, a_{2n})
a2=(a21,…,a2n), …,记
P
(
x
=
a
i
)
=
P
(
X
1
=
a
i
1
,
…
,
X
n
=
a
i
n
)
=
p
i
.
P(\mathbf{x} = \mathbf{a}_i) = P(X_1 = a_{i1}, \dots, X_n = a_{in}) = p_i.
P(x=ai)=P(X1=ai1,…,Xn=ain)=pi.
且满足
∑
p
i
=
1
\sum p_i = 1
∑pi=1,则称
x
\mathbf{x}
x为离散型随机向量
。
(
a
1
a
2
a
3
…
p
1
p
2
p
3
…
)
\left( \begin{array}{llll} \mathbf{a}_1 & \mathbf{a}_2 & \mathbf{a}_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)
(a1p1a2p2a3p3……)
称为
x
\mathbf{x}
x的密度矩阵。若存在一个非负函数
f
(
x
)
=
f
(
x
1
,
…
,
x
n
)
f(\mathbf{x}) = f(x_1, \dots, x_n)
f(x)=f(x1,…,xn)使得对一切
−
∞
<
a
i
≤
b
i
<
∞
,
i
=
1
,
…
,
n
-\infty < a_i \leq b_i < \infty, i = 1,\dots, n
−∞<ai≤bi<∞,i=1,…,n均有
P
(
a
1
<
X
1
<
b
1
,
…
,
a
n
<
X
n
<
b
n
)
=
∫
a
1
b
1
⋯
∫
a
n
b
n
f
(
x
1
,
…
,
x
n
)
d
x
1
…
d
x
n
,
P(a_1 < X_1 < b_1, \dots, a_n < X_n < b_n) = \int_{a_1}^{b_1} \cdots \int_{a_n}^{b_n} f(x_1, \dots, x_n) \text{d} x_1\dots \text{d} x_n,
P(a1<X1<b1,…,an<Xn<bn)=∫a1b1⋯∫anbnf(x1,…,xn)dx1…dxn,
则称
x
\mathbf{x}
x为连续型随机向量
,
f
(
x
1
,
…
,
x
n
)
f(x_1, \dots, x_n)
f(x1,…,xn)称为它的分布密度
。
分布函数
定义1.22 设
x
=
(
X
1
,
…
,
X
n
)
\mathbf{x} = (X_1, \dots, X_n)
x=(X1,…,Xn)为一随机向量,对任一
n
n
n维向量
(
x
1
,
…
,
x
n
)
(x_1, \dots, x_n)
(x1,…,xn),令函数
F
(
x
1
,
…
,
x
n
)
=
P
(
X
1
≤
x
1
,
…
,
X
n
≤
x
n
)
,
F(x_1, \dots, x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n),
F(x1,…,xn)=P(X1≤x1,…,Xn≤xn),
它称为随机向量
x
\mathbf{x}
x的联合分布函数
,或简称分布函数。
函数
F
(
x
)
F(\mathbf{x})
F(x)有如下的性质。
(1) 对每个
i
i
i,
F
F
F是
x
1
x_1
x1的单调不降右连续函数;
(2)
F
(
−
∞
,
x
2
,
…
,
x
n
)
=
F
(
x
1
,
−
∞
,
…
,
x
n
)
=
⋯
=
(
x
1
,
x
2
,
…
,
x
n
−
1
,
−
∞
)
=
0
F(-\infty, x_2, \dots, x_n) = F(x_1, -\infty, \dots, x_n) = \dots = (x_1, x_2, \dots, x_{n-1}, -\infty) = 0
F(−∞,x2,…,xn)=F(x1,−∞,…,xn)=⋯=(x1,x2,…,xn−1,−∞)=0;
(3)
F
(
∞
,
…
,
∞
)
=
1
F(\infty,\dots, \infty) = 1
F(∞,…,∞)=1;
(4) 若
x
\mathbf{x}
x为离散型随机变量,则它的分布函数为
F
(
x
)
=
∑
a
i
≤
x
p
i
F(\mathbb{x}) = \sum_{\mathbf{a}_i \leq \mathbf{x}} p_i
F(x)=∑ai≤xpi;
(5) 若
x
\mathbf{x}
x为连续型随机变量,则它的分布函数为
F
(
x
)
=
∫
−
∞
x
1
⋯
∫
−
∞
x
n
f
(
t
1
,
…
,
t
n
)
d
t
1
…
d
t
n
F(\mathbb{x}) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \dots, t_n) \text{d} t_1\dots \text{d} t_n
F(x)=∫−∞x1⋯∫−∞xnf(t1,…,tn)dt1…dtn;
边缘分布和独立性
设
x
\mathbf{x}
x为一个
n
n
n维随机向量,它的部分随机变量组成的子随机向量的分布叫做边缘分布
。
定义1.23 设
x
\mathbf{x}
x的分布函数为
F
(
x
1
,
…
,
x
n
)
F(x_1, \dots, x_n)
F(x1,…,xn),
X
1
,
…
,
X
n
X_1, \dots, X_n
X1,…,Xn的边缘分布函数分别为
F
1
(
x
1
)
,
…
,
F
n
(
x
n
)
F_1(x_1), \dots, F_n(x_n)
F1(x1),…,Fn(xn),若对任意实数
x
1
,
…
,
x
n
x_1, \dots, x_n
x1,…,xn,有
F
(
x
)
=
F
1
(
x
1
)
…
F
n
(
x
n
)
,
F(\mathbf{x}) = F_1(x_1)\dots F_n(x_n),
F(x)=F1(x1)…Fn(xn),
则称
X
1
,
…
,
X
n
X_1, \dots, X_n
X1,…,Xn相互独立
。
条件分布
离散型:设
X
,
Y
X, Y
X,Y是离散型随机变量,其联合分布为
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
i
j
,
i
=
0
,
…
;
j
=
1
,
0
,
…
P(X = x_i, Y = y_j) = P_{ij},i=0,\dots; j=1,0,\dots
P(X=xi,Y=yj)=Pij,i=0,…;j=1,0,…. 记
X
=
(
x
0
a
1
a
2
…
p
0
p
1
p
2
…
)
Y
=
(
y
0
y
1
y
2
…
q
0
q
1
q
2
…
)
X = \left( \begin{array}{llll} \mathbf{x}_0 & \mathbf{a}_1 & \mathbf{a}_2 & \dots \\ p_0 & p_1 & p_2 & \dots \end{array} \right) \\ Y = \left( \begin{array}{llll} \mathbf{y}_0 & \mathbf{y}_1 & \mathbf{y}_2 & \dots \\ q_0 & q_1 & q_2 & \dots \end{array} \right)
X=(x0p0a1p1a2p2……)Y=(y0q0y1q1y2q2……)
故根据边缘分布的定义,有
p
i
=
∑
j
p
i
j
,
q
j
=
∑
i
p
i
j
p_i = \sum_{j} p_{ij}, q_j = \sum_i p_{ij}
pi=j∑pij,qj=i∑pij
因此
P
(
Y
=
y
j
∣
X
=
x
i
)
=
p
i
j
/
p
i
=
p
i
j
/
∑
k
p
i
k
P
(
Y
≤
y
∣
X
=
x
i
)
=
∑
j
:
y
j
≤
y
p
i
j
/
∑
k
p
i
k
P(Y = y_j | X = x_i) = p_{ij} / p_i = p_{ij} / \sum_k p_{ik} \\ P(Y \leq y | X = x_i) = \sum_{j:y_j \leq y} p_{ij} / \sum_k p_{ik}
P(Y=yj∣X=xi)=pij/pi=pij/k∑pikP(Y≤y∣X=xi)=j:yj≤y∑pij/k∑pik
连续型:
P
(
Y
≤
y
∣
X
=
x
)
=
lim
Δ
x
→
0
P
(
Y
≤
y
∣
x
≤
X
≤
x
+
Δ
x
)
=
lim
Δ
x
→
0
F
(
x
+
Δ
x
,
y
−
F
(
x
,
y
)
)
F
(
x
+
Δ
x
,
∞
)
−
F
(
x
,
∞
)
=
lim
Δ
x
→
0
∫
x
x
+
Δ
x
∫
−
∞
y
f
(
u
,
v
)
d
u
d
v
∫
x
x
+
Δ
x
∫
−
∞
∞
f
(
u
,
v
)
d
u
d
v
P(Y \leq y | X = x) = \lim_{\Delta x \rightarrow 0} P(Y \leq y | x \leq X \leq x + \Delta x) = \lim_{\Delta x \rightarrow 0} \frac{F(x+\Delta x, y - F(x,y))}{F(x + \Delta x, \infty) - F(x, \infty)} = \lim_{\Delta x \rightarrow 0} \frac{\int_x^{x+\Delta x}\int_{-\infty}^y f(u,v) \text{d}u\text{d}v }{\int_x^{x+\Delta x}\int_{-\infty}^\infty f(u,v) \text{d}u\text{d}v }
P(Y≤y∣X=x)=Δx→0limP(Y≤y∣x≤X≤x+Δx)=Δx→0limF(x+Δx,∞)−F(x,∞)F(x+Δx,y−F(x,y))=Δx→0lim∫xx+Δx∫−∞∞f(u,v)dudv∫xx+Δx∫−∞yf(u,v)dudv
若
f
1
(
x
)
≠
0
f_1(x) \neq 0
f1(x)=0为
X
X
X的密度函数, 则
P
(
Y
≤
y
∣
X
=
x
)
=
∫
−
∞
y
f
(
x
,
v
)
f
1
(
x
)
d
v
P(Y \leq y | X = x) = \int_{-\infty}^y \frac{f(x, v)}{f_1(x)} \text{d}v
P(Y≤y∣X=x)=∫−∞yf1(x)f(x,v)dv