概率统计基础

基本概率统计知识

摘要:闲来无事,把基础的概率统计知识复习一遍,主要参考方开泰《统计分布》。

事件和概率

随机试验

在一定条件下一定出现的现象叫必然事件,在一定条件下必然不出现的现象叫不可能事件。有许多现象在一定条件下,可能出现,可能不出现,这种现象称为随机事件,或简称事件。E.g., 事件A: “掷一枚质地均匀的硬币,正面向上”,它可能发生。我们常常通过随机试验来观察随机事件的统计规律性,E.g., 事件"正面向上"是随机试验"掷一枚质地均匀的硬币"的一个可能结果。

一般地,设 E E E为一试验,如果不能事先准确地预言它的结果,而且在相同条件下可以重复进行,就称 E E E为一随机试验。以 ω \omega ω表示它的一个可能的结果,称 ω \omega ω为E的一基本事件。全体基本事件的集合 Ω = { ω } \Omega = \{\omega\} Ω={ω}称为基本事件空间样本空间

E.g., E E E表示在一个箱子里有10个球,上面分别标以 1 , 2 , … , 10 1,2,\dots,10 1,2,,10,若从箱子里随机地取一个球,令 ω i \omega_i ωi表示球上的数字是 i i i,则 Ω = { ω 1 , … , ω 10 } \Omega = \{\omega_1,\dots,\omega_{10}\} Ω={ω1,,ω10}

事件的运算

(1) 如果事件 A A A发生必然导致事件 B B B发生,就说事件 B B B包含 A A A,或者说事件 A A A包含于 B B B,记做 A ⊂ B A \subset B AB。如果 A ⊂ B A\subset B AB B ⊂ A B \subset A BA,则A和B相等,记做 A = B A = B A=B

(2) "两事件 A A A B B B中至少有一个发生"也是一个事件,称此事件为 A A A B B B,记作 A ∪ B A \cup B AB

(3) "两事件 A A A B B B同时发生"也是一个事件,称此事件为 A A A B B B,记作 A ∩ B A \cap B AB

(4) "事件 A A A发生,而事件 B B B不发生"也是一个事件,称此事件为 A A A B B B,记作 A − B A - B AB

(5) 如果两个事件 A A A B B B不可能同时发生,即 A ∩ B = ∅ A \cap B = \emptyset AB=,则称 A A A B B B互不相容,或者说互斥

(6) 如果 n n n个事件 A 1 , … , A n A_1,\dots, A_n A1,,An中的任意两个事件是互斥的,就说 A 1 , … , A n A_1, \dots, A_n A1,,An互斥。

可从集合论的观点看待事件,因为对事件引进的关系和通常在集合论中引进的相应的关系一致。参见下表。
表1. 集合论与概率论的术语对照表

符号集合论概率论
Ω \Omega Ω空间样本空间;必然事件
∅ \emptyset 空集不可能事件
ω ∈ Ω \omega \in \Omega ωΩ Ω \Omega Ω中的点样本点
{ ω } \{\omega\} {ω}单点集基本事件
A ⊂ Ω A\subset \Omega AΩ Ω \Omega Ω的子集 A A A事件 A A A
A ⊂ B A \subset B AB集合 A A A是集合 B B B的子集事件 A A A包含于事件 B B B
A = B A = B A=B集合 A A A与集合 B B B相等事件 A A A B B B相等
A ∪ B A\cup B AB集合 A A A B B B的和事件 A A A和事件 B B B至少有1个发生
A ∩ B A\cap B AB集合 A A A B B B的交事件 A A A B B B同时发生,简记为 A B AB AB
A c A^c Ac集合 A A A的余集,i.e., Ω − A \Omega - A ΩA事件 A A A的逆事件
A − B A - B AB集合 A A A B B B之差事件 A A A发生而 B B B不发生
A ∩ B = ∅ A\cap B = \emptyset AB=集合 A A A B B B没有公共元素事件 A A A B B B互不相容

概率及其公理化定义

几种概率计算方法
  1. 古典型
    对于某一随机事件 E E E,如果
    (i)全体基本事件 ω 1 , … , ω n \omega_1, \dots, \omega_n ω1,,ωn只有有限个;
    (ii) 每个基本事件出现的可能性都相同。
    则称 E E E古典型随机试验
    在古典型随机试验中,任意事件 A A A对应的概率定义为
    P ( A ) = 事件 A 包含的基本事件数 ( k ) / 基本事件总数 ( n ) P(A) = 事件A包含的基本事件数(k) / 基本事件总数(n) P(A)=事件A包含的基本事件数(k)/基本事件总数(n)
  2. 几何型
    一般地,设某一随机试验,其结果(看作一个点)必落在 Ω \Omega Ω中,并具有均匀性,且试验结果必落在 Ω \Omega Ω中,而且落在某区域 A ⊂ Ω A \subset \Omega AΩ中的可能性大小与 A A A的度量大小成正比,而与 A A A的位置及形状无关,那么事件 A A A的概率定义为
    P ( A ) = L ( A ) / L ( Ω ) P(A) = L(A) / L(\Omega) P(A)=L(A)/L(Ω)
  3. 频率
    E E E为一随机试验, A A A为其中任一事件,在相同的条件下,把 E E E独立重复试验 n n n次,以 f n ( A ) f_n(A) fn(A)表示事件 A A A在这 n n n次试验中出现的次数,比值
    F n ( A ) = f n ( A ) / n F_n(A) = f_n(A) / n Fn(A)=fn(A)/n
    称为事件 A A A在这 n n n次试验中出现的频率 f n ( A ) f_n(A) fn(A)称为 A A A在这 n n n次试验中出现的频数。
*概率的公理化定义

近代概率论给出了事件与概率的严格定义,源于《测度论》。


定义1.1 Ω \Omega Ω是抽象的点 ω \omega ω的集, Ω \Omega Ω中的一些子集 A A A所成的类为 F \mathcal{F} F. 如果 F \mathcal{F} F满足下列条件
(1) Ω ∈ F \Omega \in \mathcal{F} ΩF;
(2) 如果 A ∈ F A \in \mathcal{F} AF, 则 A c ∈ F A^c \in \mathcal{F} AcF;
(3) 如果 A n ∈ F ( n = 1 , 2 , …   ) A_n \in \mathcal{F} (n = 1,2,\dots) AnF(n=1,2,),则 ⋃ n = 1 ∞ A n ∈ F \bigcup_{n=1}^\infty A_n \in \mathcal{F} n=1AnF
则称 F \mathcal{F} F Ω \Omega Ω的一个 σ \sigma σ-代数。



定义1.2 P ( A ) A ∈ F P(A) A\in \mathcal{F} P(A)AF是定义在 σ \sigma σ-代数 F \mathcal{F} F上的实值集函数,如果它满足下列条件
(1) 对每个 A ∈ F A\in \mathcal{F} AF,有 0 ≤ P ( A ) ≤ 1 0 \leq P(A) \leq 1 0P(A)1
(2) P ( Ω ) = 1 P(\Omega) = 1 P(Ω)=1;
(3) 如果 A n ∈ F ( n = 1 , 2 , …   ) A_n \in \mathcal{F} (n = 1,2,\dots) AnF(n=1,2,),且 A i ∩ A j = ∅ , i ! = j A_i \cap A_j = \emptyset, i != j AiAj=,i!=j,则有
P ( ⋃ n = 1 ∞ A n ) = ∑ n = 1 ∞ P ( A n ) , P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n), P(n=1An)=n=1P(An),
就称 P ( A ) P(A) P(A) F \mathcal{F} F上的概率测度,或简称概率,而称 F \mathcal{F} F中的集为事件1,三元组 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P)概率空间


简要来说,
(1) Ω \Omega Ω是样本空间,是所有可能结果的集合;
(2) F \mathcal{F} F是事件的集合,事件是样本空间的子集,基本事件是样本空间的元素;
(3) P P P为概率函数,该函数 P : F → [ 0 , 1 ] P: \mathcal{F} \rightarrow [0,1] P:F[0,1]将事件空间中每一个事件映射到从0到1的实值。

根据上述说法,可以归纳出概率的性质:
(1) P ( ∅ ) = 0 P(\emptyset) = 0 P()=0
(2) 如果 A A A B B B为两事件,且 B ⊂ A B \subset A BA,则
0 ≤ P ( A − B ) = P ( A ) − P ( B ) 0 \leq P(A - B) = P(A) - P(B) 0P(AB)=P(A)P(B)
从而, P ( A ) ≥ P ( B ) P(A) \geq P(B) P(A)P(B),且 P ( A c ) = 1 − P ( A ) P(A^c) = 1 - P(A) P(Ac)=1P(A)
(3) 对任意 n n n个事件 A 1 , … , A n A_1, \dots, A_n A1,,An,有
P ( ⋃ i = 1 n A i ) ≤ ∑ i = 1 n P ( A i ) . P(\bigcup_{i=1}^n A_i) \leq \sum_{i=1}^n P(A_i). P(i=1nAi)i=1nP(Ai).
(4) 对任意两个事件 A A A B B B,有
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B) = P(A) + P(B) - P(A\cap B) P(AB)=P(A)+P(B)P(AB)
(5) 若$A_1 \supset A_2 \supset \dots 是一个单调下降的事件序列, 是一个单调下降的事件序列, 是一个单调下降的事件序列,A = \bigcap_{n=1}^\infty A_n$,则
P ( A ) = lim ⁡ n → ∞ P ( A n ) . P(A) = \lim_{n\rightarrow \infty} P(A_n). P(A)=nlimP(An).

若$A_1 \subset A_2 \subset \dots 是一个单调上升的事件序列, 是一个单调上升的事件序列, 是一个单调上升的事件序列,A = \bigcup_{n=1}^\infty A_n$,则
P ( A ) = lim ⁡ n → ∞ P ( A n ) . P(A) = \lim_{n\rightarrow \infty} P(A_n). P(A)=nlimP(An).
这5条性质都比较容易理解。

条件概率

条件概率 P ( A ∣ B ) P(A|B) P(AB)是指在事件 B B B已发生的情况下,事件 A A A发生的概率。
条件概率公式:
P ( A ∣ B ) = P ( A B ) P ( B ) ≥ P ( A ) P(A|B) = \frac{P(AB)}{P(B)} \geq P(A) P(AB)=P(B)P(AB)P(A)
条件概率具有如下的性质:
(1) 0 ≤ P ( A ∣ B ) ≤ 1 0 \leq P(A|B) \leq 1 0P(AB)1;
(2) P ( Ω ∣ B ) = 1 P(\Omega|B) = 1 P(Ω∣B)=1;
(3) 若 A 1 , … , A n , … A_1,\dots,A_n,\dots A1,,An,互不相容事件,则
P ( ⋃ n = 1 ∞ A n ∣ B ) = ∑ n = 1 ∞ P ( A n ∣ B ) . P(\bigcup_{n=1}^\infty A_n | B) = \sum_{n=1}^\infty P(A_n |B). P(n=1AnB)=n=1P(AnB).


定理1.1(乘法公式) A 1 , … , A n A_1,\dots,A_n A1,,An n ≥ 2 n\geq2 n2个事件,且 P ( A 1 A 2 … , A n − 1 ) > 0 P(A_1A_2\dots,A_{n-1}) > 0 P(A1A2,An1)>0,则
P ( A 1 … A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) … P ( A n ∣ A 1 … A n − 1 ) P(A_1\dots A_n) = P(A_1)P(A_2 | A_1) P(A_3 | A_1A_2)\dots P(A_n | A_1\dots A_{n-1}) P(A1An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1An1)


A 1 , … A_1,\dots A1,为有限个或无穷个互不相容的事件,且 ⋃ n = 1 ∞ A n = Ω , P ( A i ) > 0 , i = 1 , 2 , … \bigcup_{n=1}^\infty A_n = \Omega, P(A_i) > 0, i=1,2,\dots n=1An=Ω,P(Ai)>0,i=1,2,,则称 { A 1 , A 2 , …   } \{A_1,A_2,\dots\} {A1,A2,}为空间的一个划分


定理1.2(全概率公式) A 1 , A 2 , … A_1,A_2,\dots A1,A2,为空间 Ω \Omega Ω的一个划分,则对任一事件 A A A,有
P ( A ) = ∑ n = 1 ∞ P ( A n ) P ( A ∣ A n ) P(A) = \sum_{n=1}^\infty P(A_n) P(A|A_n) P(A)=n=1P(An)P(AAn)



定理1.3(贝叶斯(Bayes)公式) A 1 , A 2 , … A_1,A_2,\dots A1,A2,为空间 Ω \Omega Ω的一个划分,则对任一事件 A A A,若 P ( A ) > 0 P(A) > 0 P(A)>0,有
P ( A m ∣ A ) = P ( A ∣ A m ) P ( A m ) P ( A ) = P ( A ∣ A m ) P ( A m ) ∑ n = 1 ∞ P ( A n ) P ( A ∣ A n ) P(A_m | A) = \frac{P(A|A_m)P(A_m)}{P(A)} = \frac{P(A|A_m)P(A_m)}{\sum_{n=1}^\infty P(A_n)P(A|A_n)} P(AmA)=P(A)P(AAm)P(Am)=n=1P(An)P(AAn)P(AAm)P(Am)


独立性

若事件 A A A发生与否和事件 B B B发生与否无关,则称事件 A A A B B B是相互独立的,此时有 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(AB)=P(A),且 P ( A B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ) P(AB) = P(B)P(A|B) = P(A)P(B) P(AB)=P(B)P(AB)=P(A)P(B)


定义1.3 A A A B B B为两个事件,如满足
P ( A B ) = P ( A ) P ( B ) , P(AB) = P(A)P(B), P(AB)=P(A)P(B)
则称事件 A A A和事件 B B B是相互独立的。



定义1.4 A 1 , … , A n A_1, \dots, A_n A1,,An是n个事件,如果对任意的 s ( 2 ≤ s ≤ n ) s(2 \leq s \leq n) s(2sn),任意 1 ≤ i 1 < i 2 < ⋯ < i s ≤ n 1\leq i_1 < i_2 < \dots < i_s \leq n 1i1<i2<<isn,有
P ( A i 1 , … , A i s ) = ∏ j = 1 s P ( A i j ) , P(A_{i_1},\dots,A_{i_s}) = \prod_{j=1}^s P(A_{i_j}), P(Ai1,,Ais)=j=1sP(Aij),


我们说 A 1 , … , A n A_1,\dots,A_n A1,,An这n个事件相互独立。

References

随机变量及其分布

离散型随机变量


定义1.5 如果随机变量 X X X只能取有限个或者可数个值,并以各种确定的概率取这些不同的值,则称 X X X离散型随机变量.


X X X的取值为 x 1 , … , x i x_1, \dots, x_i x1,,xi,相应的概率为 p i = P ( X = x i ) , i = 1 , 2 , … p_i = P(X = x_i),i=1,2,\dots pi=P(X=xi),i=1,2,,显然 { p i } \{p_i\} {pi}满足
(1) p i ≥ 0 , i = 1 , 2 , … p_i \geq 0, i = 1,2,\dots pi0,i=1,2,;
(2) ∑ i = 1 ∞ p i = 1 \sum_{i=1}^\infty p_i = 1 i=1pi=1.
p i > 0 p_i > 0 pi>0,则相应的 x i x_i xi称为 X X X的支撑点,通常用一个二行的数组(称作它的分布)来表示
( x 1 x 2 x 3 … p 1 p 2 p 3 … ) \left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right) (x1p1x2p2x3p3)

连续型随机变量


定义1.6 对于随机变量 X X X,如果存在一个非负可积函数 f ( x ) f(x) f(x),使得
P ( a < X < b ) = ∫ a b f ( x ) d x P(a < X < b) = \int_a^b f(x)\text{d}x P(a<X<b)=abf(x)dx
对一切 − ∞ < a < b < + ∞ -\infty < a < b < +\infty <a<b<+成立,则称 X X X连续型随机变量。此时 f ( x ) f(x) f(x)称为 X X X分布密度函数,简称密度.


分布函数


定义1.7 X X X为随机变量,令
F ( x ) = P ( X ≤ x ) , − ∞ < x < ∞ , F(x) = P(X \leq x), -\infty < x < \infty, F(x)=P(Xx),<x<,
则称 F ( x ) F(x) F(x) X X X的概率分布函数或简称分布函数。


X X X是离散型随机变量,则它的分布函数为
F ( x ) = ∑ i : x i ≤ x p i . F(x) = \sum_{i:x_i \leq x} p_i. F(x)=i:xixpi.
X X X是连续型随机变量时,它的分布函数为
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) \text{d}t F(x)=xf(t)dt

有些分布是离散型分布和连续型分布的叠加。


定义1.8 两个随机变量 X X X Y Y Y若有相同的分布函数,则记作 X = d Y X \overset{d}{=} Y X=dY.


具有相同分布的随机变量 X X X Y Y Y可能代表完全不同的实际问题。
随机变量的函数(若有意义)仍为随机变量。如 X X X是随机变量,则 X 2 , e X , 1 / ( 1 + X 2 ) , sin ⁡ ( X ) X^2, e^X, 1/(1+X^2), \sin(X) X2,eX,1/(1+X2),sin(X)仍为随机变量。

随机变量的特征数

在一些问题中,不需要知道随机变量 X X X的一切概率性质,只需要知道它的某些性质。
由分布函数 F ( x ) F(x) F(x)算出来的,代表 F ( X ) F(X) F(X)某些特性的数,被称为分布函数 F ( X ) F(X) F(X)特征数

数学期望

X X X为离散型随机变量,有概率分布
( x 1 x 2 x 3 … p 1 p 2 p 3 … ) \left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right) (x1p1x2p2x3p3)
,那么它的数学期望是
E ( X ) = ∑ i x i p i , E(X) = \sum_i x_ip_i, E(X)=ixipi,
它反映了 X X X的平均性质,有时候称 E ( x ) E(x) E(x) X X X均值
若连续型随机变量 X X X的概率密度函数为 f ( x ) f(x) f(x),那么它的数学期望为
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x . E(X) = \int_{-\infty}^\infty xf(x)\text{d} x. E(X)=xf(x)dx.

数学期望的性质
(1) 常数的数学期望等于常数: E ( c ) = c E(c) = c E(c)=c
(2) 若 c c c为常数,则有 E ( X + c ) = E ( X ) + c E(X + c) = E(X) + c E(X+c)=E(X)+c;
(3) 若 c c c为常数,则有 E ( c X ) = c E ( X ) E(cX) = cE(X) E(cX)=cE(X);
(4) 若 X X X Y Y Y是两个随机变量,则 E ( X + Y ) = E ( X ) + E ( Y ) E(X + Y) = E(X) + E(Y) E(X+Y)=E(X)+E(Y);
(5) 若随机变量 X X X Y Y Y独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y).

方差


定义1.9 若随机变量 X X X的数学期望 E ( X ) E(X) E(X)存在,且 E [ X − E ( X ) ] 2 < ∞ E[X - E(X)]^2 < \infty E[XE(X)]2<存在,则 X X X的方差 Var ( X ) = E [ X − E ( X ) ] 2 \text{Var}(X) = E[X - E(X)]^2 Var(X)=E[XE(X)]2;它的开方叫做 X X X的标准差,记作 σ ( X ) \sigma(X) σ(X).


X X X是离散型随机变量时,容易导出
Var ( X ) = ∑ i p i [ x i − E ( X ) ] 2 . \text{Var}(X) = \sum_i p_i[x_i - E(X)]^2. Var(X)=ipi[xiE(X)]2.
X X X是连续型随机变量时,
Var ( X ) = ∫ − ∞ ∞ [ x − E ( X ) ] 2 f ( x ) d x . \text{Var}(X) = \int_{-\infty}^\infty [x - E(X)]^2f(x)\text{d}x. Var(X)=[xE(X)]2f(x)dx.
Var ( X ) < ∞ \text{Var}(X)<\infty Var(X)<时,称 X X X有方差存在,否则称 X X X的方差不存在。

方差具有如下性质
(1) 如随机变量 X X X的方差 Var ( X ) \text{Var}(X) Var(X)存在,则
Var ( a X + b ) = a 2 Var ( X ) \text{Var}(aX+b) = a^2\text{Var}(X) Var(aX+b)=a2Var(X)
(2) 在计算中,有时常用下面的公式
V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 . Var(X) = E(X^2) - [E(X)]^2. Var(X)=E(X2)[E(X)]2.
(3) 若随机变量 X X X的方差 Var ( X ) \text{Var}(X) Var(X)存在,则对任意 ϵ > 0 \epsilon >0 ϵ>0,有
P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ Var ( X ) ϵ 2 P\{|X - E(X)| \geq \epsilon \} \leq \frac{\text{Var}(X)}{\epsilon^2} P{XE(X)ϵ}ϵ2Var(X)
(4) 若 Var ( X ) = 0 \text{Var}(X) = 0 Var(X)=0,则 P ( X = E ( X ) ) = 1 P(X = E(X)) = 1 P(X=E(X))=1

高阶矩

高阶矩时对数学期望和方差的进一步推广。


定义1.10 μ r ′ ( b ) ≡ E [ ( X − b ) r ] \mu_r'(b) \equiv E[(X-b)^r] μr(b)E[(Xb)r],它称为随机变量 X X X关于 b b b r r r阶矩(若存在)。特别地,当 b = 0 b = 0 b=0时,称为 X X X r r r阶原点矩,并简记为 μ r ′ \mu_r' μr;当 b = E ( X ) b = E(X) b=E(X)时,称为 X X X r r r阶中心矩,简记为 μ r \mu_r μr.



定义1.11 γ 1 = μ 3 / μ 2 3 / 2 \gamma_1 = \mu_3 / \mu_2^{3/2} γ1=μ3/μ23/2称为随机变量 X X X偏斜系数 γ 2 = μ 4 / μ 2 2 − 3 \gamma_2 = \mu_4/\mu_2^2 - 3 γ2=μ4/μ223称为随机变量 X X X峰态系数 C X = σ ( X ) / E ( X ) C_X = \sigma(X) / E(X) CX=σ(X)/E(X)称为随机变量 X X X变异系数


利用 γ 1 \gamma_1 γ1 γ 2 \gamma_2 γ2,可以检验一个分布是不是正态分布或对分布函数进行分类,构造近似分布。


定义1.12 v r ′ ( b ) ≡ E [ ∣ X − b ∣ r ] v_r'(b) \equiv E[|X - b|^r] vr(b)E[Xbr]称为随机变量 X X X关于 b b br阶绝对矩;若 b = 0 b = 0 b=0,称它为 X X Xr阶绝对原点矩,记为 v r ′ v_r' vr;若 b = E ( X ) b = E(X) b=E(X),称它为 X X Xr阶绝对中心矩,记为 v r v_r vr.


众数、分位点和中位数


定义 1.15 众数是指使得频率函数或密度函数达到极大值的点。当 X X X为离散型随机变量时,若 p j ≥ p i p_j \geq p_i pjpi对一切 i ≠ j i\neq j i=j成立,则称 x j x_j xj X X X的众数;当 X X X为连续型随机变量时,若 f ( x 0 ) = max ⁡ x f ( x ) f(x_0) = \max_x f(x) f(x0)=maxxf(x),则称 x 0 x_0 x0 X X X的众数。



定义 1.16 给定常数 0 < p < 1 0 < p < 1 0<p<1,若存在 α p \alpha_p αp,使得
P ( X < α p ) ≤ p ≤ P ( X ≤ α p ) , P(X < \alpha_p) \leq p \leq P(X \leq \alpha_p), P(X<αp)pP(Xαp),
则称 α p \alpha_p αp为随机变量 X X Xp分位点。当 p = 1 / 2 p = 1/2 p=1/2时,相应 α 1 / 2 \alpha_{1/2} α1/2叫做随机变量 X X X中位数


若随机变量 X X X的分布密度是(柯西分布)
f ( x ) = 1 π ( x 2 + 1 ) , − ∞ < x < ∞ , f(x) = \frac{1}{\pi(x^2+1)}, -\infty< x< \infty, f(x)=π(x2+1)1,<x<,
其数学期望不存在,这是因为 x f ( x ) xf(x) xf(x)的广义积分不收敛,不过它的中位数是0。

矩母函数与特征函数

有些时候可以将分布函数转化为另一种形式,使后者比较好处理。


定义1.17 随机变量 X X X的矩母函数 M ( t ) M(t) M(t)定义为
M ( t ) = E ( e t x ) , − h < t < h , M(t) = E(e^{tx}), -h < t < h, M(t)=E(etx),h<t<h,
这里 e e e是自然对数的底数, h > 0 h>0 h>0为某个常数。


显然,若 X X X为连续型随机变量,其密度函数为 f ( x ) f(x) f(x),则
M ( t ) = ∫ − ∞ ∞ e t x f ( x ) d x . M(t) = \int_{-\infty}^\infty e^{tx}f(x) \text{d} x. M(t)=etxf(x)dx.
通过矩母函数可以方便地算 X X X的各阶原点矩。矩母函数在处理一些问题上比较方便,但不是每一个分布函数都存在矩母函数。于是人们在寻找对一切分布函数都存在的分析工具,就产生了特征函数。为此首先要引进复随机变量的概念。记
e i t x = E ( cos ⁡ ( t X ) ) + i E ( sin ⁡ ( t X ) ) e^{itx} = E(\cos(tX)) + iE(\sin(tX)) eitx=E(cos(tX))+iE(sin(tX))


定义1.18 随机变量 X X X特征函数定义为
ϕ ( t ) = E ( e i t x ) . \phi(t) = E(e^{itx}). ϕ(t)=E(eitx).


显然,当 X X X为离散型随机变量时,
ϕ ( t ) = ∑ k cos ⁡ ( t x k ) p k + i ∑ k sin ⁡ ( t x k ) p k = ∑ k E i t x k p k . \phi(t) = \sum_k \cos(tx_k)p_k + i\sum_k \sin(tx_k)p_k = \sum_k E^{itx_k}p_k. ϕ(t)=kcos(txk)pk+iksin(txk)pk=kEitxkpk.
X X X为连续型随机变量时,
ϕ ( t ) = ∫ − ∞ ∞ cos ⁡ ( t x ) f ( x ) d x + i ∫ − ∞ ∞ sin ⁡ ( t x ) f ( x ) d x = ∫ − ∞ ∞ e i t x f ( x ) d x . \phi(t) = \int_{-\infty}^\infty \cos(tx)f(x)\text{d}x + i \int_{-\infty}^\infty \sin(tx)f(x)\text{d}x = \int_{-\infty}^\infty e^{itx} f(x) \text{d}x. ϕ(t)=cos(tx)f(x)dx+isin(tx)f(x)dx=eitxf(x)dx.
特征函数总是存在的。他有很多很好的性质,比如:
(1) ϕ ( t ) \phi(t) ϕ(t)是一个有界的连续函数, ∣ ϕ ( t ) ∣ ≤ 1 |\phi(t)| \leq 1 ϕ(t)1对一切 t t t成立;
(2) ϕ ( 0 ) = 1 \phi(0) = 1 ϕ(0)=1;
(3) 若随机变量 X X X r r r阶原点矩存在,则 μ r ′ = 1 i r ϕ ( r ) ( 0 ) \mu_r' = \frac{1}{i^r}\phi^{(r)}(0) μr=ir1ϕ(r)(0);反之,由 ϕ ( r ) ( 0 ) \phi^{(r)}(0) ϕ(r)(0)存在不一定保证 X X X r r r阶原点矩,但可以证明 X X X r − 1 r-1 r1阶原点矩存在。
(4) 若随机变量 X X X的各阶原点矩都存在,则它的特征函数为
ϕ ( t ) = 1 + ∑ r = 1 ∞ μ r ′ ( i t ) r r ! \phi(t) = 1 + \sum_{r = 1}^\infty \mu_r' \frac{(it)^r}{r!} ϕ(t)=1+r=1μrr!(it)r
(5) 若随机变量 X X X的特征函数为 ϕ ( t ) \phi(t) ϕ(t),则 Y = a + b X Y = a + bX Y=a+bX(a,b为实常数)的特征函数为 ψ ( t ) = e i a t ϕ ( b t ) \psi(t) = e^{iat}\phi(bt) ψ(t)=eiatϕ(bt).
(6) 特征函数与分布函数是一一对应的。即,若 X X X的分布函数和特征函数分别是 F ( x ) F(x) F(x) ϕ ( t ) \phi(t) ϕ(t) Y Y Y的分布函数和特征函数分别是 G ( y ) G(y) G(y) ψ ( t ) \psi(t) ψ(t),则 F ≡ G F \equiv G FG当且仅当 ϕ ≡ ψ \phi \equiv \psi ϕψ.该性质表明处理特征函数等价于处理分布函数。


定义1.19 若随机变量 X X X的各阶原点矩都存在, { μ ( r ) ′ } \{\mu_{(r)}'\} {μ(r)}为它的原点阶乘矩, μ ( 0 ) ′ = 1 \mu_{(0)'} = 1 μ(0)=1,令
G ( t ) = ∑ r = 0 ∞ t r r ! μ ( r ) ′ , G(t) = \sum_{r = 0}^\infty \frac{t^r}{r!}\mu_{(r)}', G(t)=r=0r!trμ(r),
它称为 X X X阶乘矩母函数


(7) M ( t ) = G ( e t − 1 ) M(t) = G(e^t - 1) M(t)=G(et1).

随机向量及其分布

随机向量


定义1.20 X 1 , … , X n X_1, \dots, X_n X1,,Xn n n n个随机变量,由他们组成的一个数组 x = ( X 1 , … , X n ) \mathbf{x} = (X_1, \dots, X_n) x=(X1,,Xn), 叫做随机向量 X 1 , … , X n X_1, \dots, X_n X1,,Xn叫做 x x x的分量。当 n = 1 n = 1 n=1时,随机向量就化为随机变量。



定义1.21 x = ( X 1 , … , X n ) \mathbf{x} = (X_1, \dots, X_n) x=(X1,,Xn)为一随机向量。若存在有限个或可数个 n n n维数组 a 1 = ( a 11 , … , a 1 n ) \mathbf{a}_1 = (a_{11}, \dots, a_{1n}) a1=(a11,,a1n), a 2 = ( a 21 , … , a 2 n ) \mathbf{a}_2 = (a_{21}, \dots, a_{2n}) a2=(a21,,a2n), …,记
P ( x = a i ) = P ( X 1 = a i 1 , … , X n = a i n ) = p i . P(\mathbf{x} = \mathbf{a}_i) = P(X_1 = a_{i1}, \dots, X_n = a_{in}) = p_i. P(x=ai)=P(X1=ai1,,Xn=ain)=pi.

且满足 ∑ p i = 1 \sum p_i = 1 pi=1,则称 x \mathbf{x} x离散型随机向量

( a 1 a 2 a 3 … p 1 p 2 p 3 … ) \left( \begin{array}{llll} \mathbf{a}_1 & \mathbf{a}_2 & \mathbf{a}_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right) (a1p1a2p2a3p3)
称为 x \mathbf{x} x的密度矩阵。若存在一个非负函数 f ( x ) = f ( x 1 , … , x n ) f(\mathbf{x}) = f(x_1, \dots, x_n) f(x)=f(x1,,xn)使得对一切 − ∞ < a i ≤ b i < ∞ , i = 1 , … , n -\infty < a_i \leq b_i < \infty, i = 1,\dots, n <aibi<,i=1,,n均有
P ( a 1 < X 1 < b 1 , … , a n < X n < b n ) = ∫ a 1 b 1 ⋯ ∫ a n b n f ( x 1 , … , x n ) d x 1 … d x n , P(a_1 < X_1 < b_1, \dots, a_n < X_n < b_n) = \int_{a_1}^{b_1} \cdots \int_{a_n}^{b_n} f(x_1, \dots, x_n) \text{d} x_1\dots \text{d} x_n, P(a1<X1<b1,,an<Xn<bn)=a1b1anbnf(x1,,xn)dx1dxn,
则称 x \mathbf{x} x连续型随机向量 f ( x 1 , … , x n ) f(x_1, \dots, x_n) f(x1,,xn)称为它的分布密度


分布函数


定义1.22 x = ( X 1 , … , X n ) \mathbf{x} = (X_1, \dots, X_n) x=(X1,,Xn)为一随机向量,对任一 n n n维向量 ( x 1 , … , x n ) (x_1, \dots, x_n) (x1,,xn),令函数
F ( x 1 , … , x n ) = P ( X 1 ≤ x 1 , … , X n ≤ x n ) , F(x_1, \dots, x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n), F(x1,,xn)=P(X1x1,,Xnxn),
它称为随机向量 x \mathbf{x} x联合分布函数,或简称分布函数。


函数 F ( x ) F(\mathbf{x}) F(x)有如下的性质。
(1) 对每个 i i i F F F x 1 x_1 x1的单调不降右连续函数;
(2) F ( − ∞ , x 2 , … , x n ) = F ( x 1 , − ∞ , … , x n ) = ⋯ = ( x 1 , x 2 , … , x n − 1 , − ∞ ) = 0 F(-\infty, x_2, \dots, x_n) = F(x_1, -\infty, \dots, x_n) = \dots = (x_1, x_2, \dots, x_{n-1}, -\infty) = 0 F(,x2,,xn)=F(x1,,,xn)==(x1,x2,,xn1,)=0;
(3) F ( ∞ , … , ∞ ) = 1 F(\infty,\dots, \infty) = 1 F(,,)=1;
(4) 若 x \mathbf{x} x为离散型随机变量,则它的分布函数为 F ( x ) = ∑ a i ≤ x p i F(\mathbb{x}) = \sum_{\mathbf{a}_i \leq \mathbf{x}} p_i F(x)=aixpi;
(5) 若 x \mathbf{x} x为连续型随机变量,则它的分布函数为 F ( x ) = ∫ − ∞ x 1 ⋯ ∫ − ∞ x n f ( t 1 , … , t n ) d t 1 … d t n F(\mathbb{x}) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \dots, t_n) \text{d} t_1\dots \text{d} t_n F(x)=x1xnf(t1,,tn)dt1dtn;

边缘分布和独立性

x \mathbf{x} x为一个 n n n维随机向量,它的部分随机变量组成的子随机向量的分布叫做边缘分布


定义1.23 x \mathbf{x} x的分布函数为 F ( x 1 , … , x n ) F(x_1, \dots, x_n) F(x1,,xn) X 1 , … , X n X_1, \dots, X_n X1,,Xn的边缘分布函数分别为 F 1 ( x 1 ) , … , F n ( x n ) F_1(x_1), \dots, F_n(x_n) F1(x1),,Fn(xn),若对任意实数 x 1 , … , x n x_1, \dots, x_n x1,,xn,有
F ( x ) = F 1 ( x 1 ) … F n ( x n ) , F(\mathbf{x}) = F_1(x_1)\dots F_n(x_n), F(x)=F1(x1)Fn(xn),
则称 X 1 , … , X n X_1, \dots, X_n X1,,Xn相互独立


条件分布

离散型:设 X , Y X, Y X,Y是离散型随机变量,其联合分布为 P ( X = x i , Y = y j ) = P i j , i = 0 , …   ; j = 1 , 0 , … P(X = x_i, Y = y_j) = P_{ij},i=0,\dots; j=1,0,\dots P(X=xi,Y=yj)=Pij,i=0,;j=1,0,. 记
X = ( x 0 a 1 a 2 … p 0 p 1 p 2 … ) Y = ( y 0 y 1 y 2 … q 0 q 1 q 2 … ) X = \left( \begin{array}{llll} \mathbf{x}_0 & \mathbf{a}_1 & \mathbf{a}_2 & \dots \\ p_0 & p_1 & p_2 & \dots \end{array} \right) \\ Y = \left( \begin{array}{llll} \mathbf{y}_0 & \mathbf{y}_1 & \mathbf{y}_2 & \dots \\ q_0 & q_1 & q_2 & \dots \end{array} \right) X=(x0p0a1p1a2p2)Y=(y0q0y1q1y2q2)
故根据边缘分布的定义,有
p i = ∑ j p i j , q j = ∑ i p i j p_i = \sum_{j} p_{ij}, q_j = \sum_i p_{ij} pi=jpij,qj=ipij
因此
P ( Y = y j ∣ X = x i ) = p i j / p i = p i j / ∑ k p i k P ( Y ≤ y ∣ X = x i ) = ∑ j : y j ≤ y p i j / ∑ k p i k P(Y = y_j | X = x_i) = p_{ij} / p_i = p_{ij} / \sum_k p_{ik} \\ P(Y \leq y | X = x_i) = \sum_{j:y_j \leq y} p_{ij} / \sum_k p_{ik} P(Y=yjX=xi)=pij/pi=pij/kpikP(YyX=xi)=j:yjypij/kpik

连续型:
P ( Y ≤ y ∣ X = x ) = lim ⁡ Δ x → 0 P ( Y ≤ y ∣ x ≤ X ≤ x + Δ x ) = lim ⁡ Δ x → 0 F ( x + Δ x , y − F ( x , y ) ) F ( x + Δ x , ∞ ) − F ( x , ∞ ) = lim ⁡ Δ x → 0 ∫ x x + Δ x ∫ − ∞ y f ( u , v ) d u d v ∫ x x + Δ x ∫ − ∞ ∞ f ( u , v ) d u d v P(Y \leq y | X = x) = \lim_{\Delta x \rightarrow 0} P(Y \leq y | x \leq X \leq x + \Delta x) = \lim_{\Delta x \rightarrow 0} \frac{F(x+\Delta x, y - F(x,y))}{F(x + \Delta x, \infty) - F(x, \infty)} = \lim_{\Delta x \rightarrow 0} \frac{\int_x^{x+\Delta x}\int_{-\infty}^y f(u,v) \text{d}u\text{d}v }{\int_x^{x+\Delta x}\int_{-\infty}^\infty f(u,v) \text{d}u\text{d}v } P(YyX=x)=Δx0limP(YyxXx+Δx)=Δx0limF(x+Δx,)F(x,)F(x+Δx,yF(x,y))=Δx0limxx+Δxf(u,v)dudvxx+Δxyf(u,v)dudv
f 1 ( x ) ≠ 0 f_1(x) \neq 0 f1(x)=0 X X X的密度函数, 则
P ( Y ≤ y ∣ X = x ) = ∫ − ∞ y f ( x , v ) f 1 ( x ) d v P(Y \leq y | X = x) = \int_{-\infty}^y \frac{f(x, v)}{f_1(x)} \text{d}v P(YyX=x)=yf1(x)f(x,v)dv

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值