自然语言处理学习笔记-lecture2-数学基础2-概率论

概率论

随机试验

具备以下三个特点的试验称为随机试验:

  • 可以在相同的条件下重复地运行;
  • 每次试验的可能结果可能不止一个,并且能事先明确试验的所有可能结果;
  • 进行一次试验之前不能确定哪一个结果会出现。

以下是一些随机试验的例子:

  • 抛一枚硬币,观察正面 H H H、反面 T T T出现的情况。
  • 抛一颗骰子,观察出现的点数。
  • 在一批灯泡里任意抽取一只,测试它的寿命。

样本空间

对于随机试验,尽管在每次试验之前不能预知试验的结果,但试验的所有可能结果组成的集合是已知的。我们将随机试验 E E E的所有可能结果组成的集合称为 E E E的样本空间,记为 S S S。样本空间中的元素,称为样本点。
例如,给定以下随机试验

  • E 1 E_1 E1:抛一枚硬币,观察正面 H H H、反面 T T T出现的情况。
  • E 2 E_2 E2:抛一颗骰子,观察出现的点数。
  • E 3 E_3 E3:在一批灯泡里任意抽取一只,测试它的寿命。
    对应的样本空间是:
  • S 1 : { H , T } S_1:\{H,T\} S1:{H,T}
  • S 2 : { 1 , 2 , 3 , 4 , 5 , 6 } S_2:\{1,2,3,4,5,6\} S2:{1,2,3,4,5,6}
  • S 3 : { t ∣ t ≥ 0 } S_3:\{t|t \geq 0\} S3:{tt0}

随机事件

试验 E E E的样本空间 S S S的子集称为 E E E的随机事件,简称为事件。
例如,令“将一枚硬币抛掷两次,观察正面 H H H、反面 T T T出现的情况”是一个随机试验 E E E,则其样本空间总共包含四个元素:
S = { H H , H T , T T , T H } S = \{HH, HT, TT, TH\} S={HH,HT,TT,TH}
我们可以定义一个事件“第一次出现的是 H H H”,即
A 1 = { H H , H T } A1 = \{HH, HT\} A1={HH,HT}
还可以定义另一个事件“两次出现的是同一面”,即
A 2 = { H H , T T } A2 = \{HH, TT\} A2={HH,TT}
显然, A 1 A_1 A1 A 2 A_2 A2都是样本空间的子集。

概率

E E E是随机试验, S S S是样本空间。对于 E E E的每一个事件 A A A赋予一个实数,记为 P ( A ) P(A) P(A),称为事件 A A A的概率。概率必须满足以下条件:

  • 非负性:对于每一个事件 A A A,有 P ( A ) ≥ 0 P(A) ≥ 0 P(A)0;
  • 规范性:对于必然发生的事件 S S S,有 P ( S ) = 1 P(S) = 1 P(S)=1;
  • 可列可加性:设 A 1 、 A 2 、 . . . A_1 、A_2 、... A1A2...是两两互不相容的事件,即对于 A i ⋂ A j = ∅ ( i ≠ j ) A_i \bigcap A_j =\emptyset(i \neq j) AiAj=(i=j),有 P ( A 1 ⋃ A 2 ⋃ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \bigcup A_2 \bigcup ...)=P(A_1)+P(A_2)+... P(A1A2...)=P(A1)+P(A2)+...

A A A B B B为任意两个事件, A B AB AB表示两个事件同时发生,以下公式成立:
P ( A ⋃ B ) = P ( A ) + P ( B ) − P ( A B ) P(A \bigcup B) = P(A) + P(B) − P(AB) P(AB)=P(A)+P(B)P(AB)
对于前面抛掷两次硬币的例子,如果 A A A表示“第一次是 H H H”, B B B表示“两次结果都一样”,那么 A B AB AB表示“两次都是 H H H”。

等可能概型

等可能概型是指符合以下两个条件的随机试验:

  • 试验的样本空间只能包含有限个元素;
  • 试验中每个基本事件(即每个结果)发生的可能性基本相同。

例如,一个口袋里装有6只球,其中有4只白球和2只红球。从袋中取球两次,每次随机地取一只,假设每只球都有相等概率被抽中。第一次取一球不放回袋中,第二次从剩余的球中再取一球。计算:(1)取到的两只球都是白球的概率,(2)取到的两只球至少有一只是白球的概率。
首先计算两只球都是白球的概率: ( 4 / 6 ) × ( 3 / 5 ) = 2 / 5 (4/6) × (3/5) = 2/5 (4/6)×(3/5)=2/5。然后,先计算两只球都是红球的概率: ( 2 / 6 ) × ( 1 / 5 ) = 1 / 15 (2/6) × (1/5) = 1/15 (2/6)×(1/5)=1/15,然后可以得到取到的两只球至少有一只是白球的概率: 1 − ( 1 / 15 ) = 14 / 15 1 − (1/15) = 14/15 1(1/15)=14/15

条件概率

设A和B是两个事件,且P(A) > 0,称
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)
为在事件 A A A发生的条件下事件 B B B发生的条件概率。 不难验证,条件概率符合概率定义中的三个条件:

  • 非负性:对于每一个事件 B B B,有 P ( B ∣ A ) ≥ 0 P(B|A) ≥ 0 P(BA)0;
  • 规范性:对于必然发生的事件 S S S,有 P ( S ∣ A ) = 1 P(S|A) = 1 P(SA)=1;
  • 可列可加性:设 B 1 、 B 2 、 . . . B_1 、B_2 、... B1B2...是两两互不相容的事件,则有:
    P ( ⋃ i = 1 ∞ B i ∣ A ) = ∑ i = 1 ∞ P ( B i ∣ A ) P(\bigcup_{i=1}^\infty B_i|A) = \sum_{i=1}^\infty P(B_i|A) P(i=1BiA)=i=1P(BiA)

例如,一个口袋里装有6只球,其中有4只白球和2只红球。从袋中取球两次,每次随机地取一只,假设每只球都有相等的概率被抽中。第一次取一球不放回袋中,第二次从剩余的球中再取一球。设事件 A A A为“第一次取到白球”,事件 B B B为“第二次取到白球”,计算条件概率 P ( B ∣ A ) P(B | A) P(BA)
首先计算 P ( A ) P(A) P(A)。由于开始口袋中有6只球,其中有4只白球,因此第一次取到白球的概率 P ( A ) = 4 / 6 P(A) = 4/6 P(A)=4/6。然后计算 P ( A B ) P(AB) P(AB),即事件“两次都抽到白球”的概率:
P ( A B ) = 4 6 × 3 5 = 2 5 P(AB) = \frac{4}{6} \times \frac{3}{5} = \frac{2}{5} P(AB)=64×53=52
因此,条件概率计算如下:
P ( B ∣ A ) = P ( A B ) P ( A ) = 2 5 × 6 4 = 3 5 P(B|A) = \frac{P(AB)}{P(A)} = \frac{2}{5} \times \frac{6}{4} = \frac{3}{5} P(BA)=P(A)P(AB)=52×46=53

全概率公式

S S S为试验 E E E的样本空间, B 1 , B 2 , . . . , B n B_1, B_2, ..., B_n B1,B2,...,Bn为事件 E E E的一组事件,如果以下两个条件成立

  • B i ⋂ B j = ∅ , i ≠ j , i , j = 1 , ⋯   , n B_i \bigcap B_j = \emptyset,i \neq j,i,j = 1,\cdots, n BiBj=,i=j,i,j=1,,n
  • B 1 ⋃ B 2 ⋃ ⋯ ⋃ B n = S B_1 \bigcup B_2 \bigcup \cdots \bigcup B_n = S B1B2Bn=S

则称 B 1 , B 2 , ⋯   , B n B_1,B_2,\cdots,B_n B1,B2,,Bn为样本空间 S S S的一个划分。
例如,试验 E E E“掷一颗骰子观察其点数”样本空间为 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6},则 B 1 = { 1 , 2 , 3 } , B 2 = { 4 , 5 } 和 B 3 = { 6 } B_1 = \{1, 2, 3\},B_2 = \{4, 5\}和B_3 = \{6\} B1={1,2,3}B2={4,5}B3={6} S S S的一个划分。
A A A是试验 E E E的一个事件, B 1 , B 2 , . . . , B n B_1, B_2, ..., B_n B1,B2,...,Bn是其样本空间的一个划分,则以下全概率公式成立:
P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A) = \sum_{i = 1}^nP(A|B_i)P(B_i) P(A)=i=1nP(ABi)P(Bi)

贝叶斯公式

A A A B B B是随机试验 E E E的任意两个事件,以下贝叶斯公式成立:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)
可以进一步与全概率公式结合起来。令 B 1 , B 2 , . . . , B n B_1, B_2, ..., B_n B1,B2,...,Bn S S S的一个划分,而且 P ( B i ) > 0 ( i = 1 , 2 , . . . , n ) P(B_i) > 0 (i = 1, 2,..., n) P(Bi)>0(i=1,2,...,n),则有:
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j = 1}^nP(A|B_j)P(B_j)} P(BiA)=j=1nP(ABj)P(Bj)P(ABi)P(Bi)
贝叶斯公式在人工智能中非常重要,产生了重要的贝叶斯学派。贝叶斯公式对于揭示信息认知加工过程与规律、实现有效的学习和判断决策都具有十分重要的理论意义和实践价值。

独立性

A A A B B B是两个随机事件,如果满足等式 P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)则称事件 A A A B B B相互独立。
两个事件相互独立的含义是其中一个事件已发生,不影响另一个事件发生的概率。在实际应用中,对于事件的独立性通常是根据事件的实际意义去判断。如果根据实际情况分析,两个事件之间没有关联或者关联很弱,那么就认为它们之间是相互独立的。例如,如果甲、乙两人同一天感冒,甲在中国,乙在美国,双方并未接触,则可以认为两个事件是独立的。如果甲、乙是住在同一个宿舍的舍友,那么就不能认为是相互独立的。

随机变量

将一枚硬币抛掷两次,观察出现正面 H H H和反面 T T T的情况,样本空间是
S = { H H , H T , T T , T H } S = \{HH, HT, TT, TH\} S={HH,HT,TT,TH}
X X X表示两次投掷得到正面 H H H的总数,则 X X X的取值是一个随机变量:

  • X = 0 X = 0 X=0:当投掷结果是 { T T } \{TT\} {TT}时;
  • X = 1 X = 1 X=1:当投掷结果是 { H T } \{HT\} {HT} { T H } \{TH\} {TH}时;
  • X = 2 X = 2 X=2:当投掷结果是 { H H } \{HH\} {HH}时。

随机变量的取值随试验的结果而定,在试验之前不能预知取什么值,并且其取值有一定的的概率。随机变量的引入,使我们能够描述各种随机现象,并能利用数学方法对随机试验的结果进行深入分析。

离散型随机变量

取值是有限个或可列举无限个的随机变量称为离散型随机变量。例如,抛掷一枚硬币,只可能取正面和反面两个取值,因此是离散型随机变量。
设离散型随机变量 X X X可能的取值为$x_k (k = 1, 2,…) , , X 取各个可能值的概率,即事件 取各个可能值的概率,即事件 取各个可能值的概率,即事件{X = x_k}$的概率,为:
P ( X = x k ) = p k , k = 1 , 2 , ⋯ P(X = x_k) = p_k,k=1,2,\cdots P(X=xk)=pk,k=1,2,
上式称为离散型随机变量 X X X的分布律。
注意,根据概率的定义, p k p_k pk满足以下两个条件:

  • p k ≥ 0 , k = 1 , 2 , ⋯ p_k \geq 0,k=1,2,\cdots pk0,k=1,2,
  • ∑ k = 1 ∞ p k = 1 \sum_{k=1}^\infty p_k = 1 k=1pk=1

离散型随机变量分布

以下两种离散型随机变量经常被使用。
第一个是 ( 0 − 1 ) (0 − 1) (01)分布。设随机变量 X X X只能取0和1两个值,其分布律为
P ( X = k ) = p k ( 1 − p ) 1 − k P(X = k) = p^k(1-p)^{1-k} P(X=k)=pk(1p)1k
其中, k k k的取值是0或1, 0 < p < 1 0 < p < 1 0<p<1
第二个是二项分布。设 n n n是一个正整数, k k k是一个不大于 n n n的非负整数,即 0 ≤ k ≤ n 0 ≤ k ≤ n 0kn,某个随机事件 A A A发生的概率为 p p p,则在 n n n次试验中事件 A A A发生 k k k 次的概率为:
P ( X = k ) = ( n k ) p k ( 1 − p ) 1 − k P(X = k) = \left( \begin{matrix} n \\ k \end{matrix} \right) p^k(1-p)^{1-k} P(X=k)=(nk)pk(1p)1k
显然,当 n = 1 n = 1 n=1时,二项分布等价于 ( 0 − 1 ) (0 − 1) (01)分布。

随机变量的分布函数

对于非离散型随机变量,其取值不能一一列举,因此需要采用新的形式对离散型和非离散型随机变量进行统一描述。
X X X是一个随机变量, x x x是任意实数,函数
F ( x ) = P ( X ≤ x ) F(x) = P(X \leq x) F(x)=P(Xx)
称为 X X X的分布函数。
对于任意两个实数 x 1 x_1 x1 x 2 x_2 x2且满足 x 1 < x 2 x_1 < x_2 x1<x2,均有:
P ( x 1 ≤ X ≤ x 2 ) = P ( X ≤ x 2 ) − P ( X ≤ x 1 ) = F ( x 2 ) − F ( x 1 ) \begin{aligned} P(x_1 \leq X \leq x_2) &= P(X \leq x_2) - P(X \leq x_1) \\ &= F(x_2) - F(x_1) \end{aligned} P(x1Xx2)=P(Xx2)P(Xx1)=F(x2)F(x1)
因此,如果已知 X X X的分布函数,我们就知道 X X X落在任意区间 ( x 1 , x 2 ] (x1, x2] (x1,x2]的概率。从这个意义上说,分布函数完整地描述了随机变量的统计规律性。

分布律与分布函数

x-123
p k p_k pk0.250.500.25

给定上表所示的分布律,相应的分布函数定义如下:
F ( x ) = { 0.00 x < − 1 0.25 − 1 ≤ x < 2 0.75 2 ≤ x < 3 1.00 x ≥ 3 F(x) = \begin{cases} 0.00 & x \lt -1 \\ 0.25 & -1 \leq x \lt 2 \\ 0.75 & 2 \leq x \lt 3 \\ 1.00 & x \geq 3 \end{cases} F(x)= 0.000.250.751.00x<11x<22x<3x3
由此可见,分布函数可以全面地描述离散型随机变量。

连续型随机变量

如果对于随机变量 X X X的分布函数 F ( x ) F(x) F(x),存在非负函数 f ( x ) f(x) f(x),使对于任意实数 x x x
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t)dt F(x)=xf(t)dt
则称 X X X为连续型随机变量。 f ( x ) f (x) f(x)称为 X X X的概率密度函数,具有以下性质:

  • f ( x ) ≥ 0 f(x) \geq 0 f(x)0
  • ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x)dx = 1 f(x)dx=1
  • 对于任意实数 x 1 x_1 x1 x 2 ( x 1 ≤ x 2 ) x_2(x_1 ≤ x_2) x2(x1x2) P ( x 1 < X ≤ x 2 ) = F ( x 2 ) − F ( x 1 ) P(x_1 < X ≤ x_2) = F(x_2) − F(x_1) P(x1<Xx2)=F(x2)F(x1);
  • f ( x ) f(x) f(x)在点 x x x处连续,则有 F ′ ( x ) = f ( x ) F'(x) = f(x) F(x)=f(x)

均匀分布

若连续型随机变量 X X X具有概率密度
f ( x ) = { 1 b − a a < b 0 o t h e r w i s e f(x) = \begin{cases} \frac{1}{b-a} & a \lt b \\ 0 & otherwise \end{cases} f(x)={ba10a<botherwise
则称 X X X在区间 ( a , b ) (a, b) (a,b)上服从均匀分布,记为 X ∼ U ( a , b ) X ∼ U(a, b) XU(a,b)

正态分布

若连续型随机变量 X X X具有概率密度
f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) f(x)=2π σ1exp(2σ2(xμ)2)
其中 μ \mu μ σ \sigma σ实常数且 σ > 0 \sigma > 0 σ>0,则称 X X X服从参数为 μ \mu μ σ \sigma σ的正态分布或高斯分布,记作 X ∼ N ( μ , σ 2 ) X ∼ N(\mu, \sigma^2) XN(μ,σ2)

二维随机变量

之前只限于讨论单个随机变量的情况,实际问题中经常出现多个随机变 量的情况。例如,为了研究某一地区某一年龄段儿童的发育情况,需要 统计儿童的身高和体重。
( X , Y ) (X, Y ) (X,Y)是二维随机变量,对于任意实数 x x x y y y,二元函数
F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y) = P(X \leq x,Y \leq y) F(x,y)=P(Xx,Yy)
称为二维随机变量 ( X , Y ) (X, Y ) (X,Y)的分布函数,或随机变量 X X X Y Y Y的联合分布函数。
P ( x 1 < X ≤ x 2 , y 1 < Y ≤ y 2 ) = F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) P(x_1 \lt X \leq x_2,y_1 \lt Y \leq y_2) = F(x_2,y_2) - F(x_2,y_1) - F(x_1,y_2) + F(x_1,y_1) P(x1<Xx2y1<Yy2)=F(x2,y2)F(x2,y1)F(x1,y2)+F(x1,y1)

二维离散型随机变量

如果二维随机变量 ( X , Y ) (X, Y ) (X,Y)全部可能的取值是有限对或可列无限多对,则称 ( X , Y ) (X,Y) (X,Y)是离散型的随机变量。设 ( X , Y ) (X,Y) (X,Y)所有的可能取值为 ( x i , y j ) , i , j = 1 , 2 , . . . (x_i,y_j),i, j = 1, 2,... (xi,yj)i,j=1,2,...,则 X X X Y Y Y的联合分布律定义为
P ( X = x , Y = y ) = p i j P(X = x,Y = y) = p_{ij} P(X=x,Y=y)=pij
联合分布律通常使用表格的方式来表示:

x 1 x_1 x1 x 2 x_2 x2 ⋯ \cdots x i x_i xi ⋯ \cdots
y 1 y_1 y1 p 11 p_{11} p11 p 21 p_{21} p21 ⋯ \cdots p i 1 p_{i1} pi1 ⋯ \cdots
y 2 y_2 y2 p 12 p_{12} p12 p 22 p_{22} p22 ⋯ \cdots p i 2 p_{i2} pi2 ⋯ \cdots
⋮ \vdots ⋮ \vdots ⋮ \vdots ⋱ \ddots ⋮ \vdots ⋯ \cdots
y j y_j yj p 1 j p_{1j} p1j p 2 j p_{2j} p2j ⋯ \cdots p i j p_{ij} pij ⋯ \cdots
⋮ \vdots ⋮ \vdots v d o t s vdots vdots ⋯ \cdots ⋮ \vdots ⋯ \cdots

二维连续型随机变量

对于二维随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数 F ( x , y ) F(x,y) F(x,y),如果存在非负的函数 f ( x , y ) f(x,y) f(x,y)使 得对于任意 x x x y y y都有:
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y) = \int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv F(x,y)=yxf(u,v)dudv
则称 ( X , Y ) (X,Y) (X,Y)是连续型的二维随机变量,函数 f ( x , y ) f(x,y) f(x,y)称为二维随机变量 ( X , Y ) (X,Y) (X,Y)的概率密度,或成为随机变量X和Y的联合概率密度。
例如,给定概率密度:
f ( x , y ) = { 2 e − ( 2 x + y ) x > 0 , y > 0 0 o t h e r w i s e f(x,y) = \begin{cases} 2e^{-(2x+y)} & x \gt 0,y \gt 0 \\ 0 & otherwise \end{cases} f(x,y)={2e(2x+y)0x>0,y>0otherwise
可计算分布函数为 F ( x , y ) = ( 1 − e − 2 x ) ( 1 − e − y ) F(x, y) = (1 − e^{−2x})(1 − e^{−y}) F(x,y)=(1e2x)(1ey),当 x > 0 x > 0 x>0 y > 0 y > 0 y>0时。

边缘分布律

二维随机变量 ( X , Y ) (X, Y ) (X,Y)作为一个整体,具有分布函数 F ( x , y ) F(x, y) F(x,y),而 X X X Y Y Y都是随机变量,各自也有分布函数,分别记为 F X ( x ) F_X(x) FX(x) F Y ( y ) F_Y(y) FY(y),分别称为二维随机变量 ( X , Y ) (X, Y ) (X,Y)关于X和关于Y的边缘分布函数,定义如下:
F X ( x ) = P ( X ≤ x , Y < ∞ ) = F ( x , ∞ ) F Y ( y ) = P ( X < ∞ , Y ≤ y ) = F ( ∞ , y ) F_X(x) = P(X \leq x,Y \lt \infty) = F(x,\infty) \\ F_Y(y) = P(X \lt \infty,Y \leq y) = F(\infty,y) FX(x)=P(Xx,Y<)=F(x,)FY(y)=P(X<,Yy)=F(,y)
随机变量 X X X Y Y Y的分布律分别定义为:
P ( X = x i ) = ∑ j = 1 ∞ P i j P ( Y = y j ) = ∑ i = 1 ∞ P i j P(X = x_i) = \sum_{j = 1}^\infty P_{ij} \\ P(Y = y_j) = \sum_{i = 1}^\infty P_{ij} P(X=xi)=j=1PijP(Y=yj)=i=1Pij
上述式子也称为二维离散型随机变量 ( X , Y ) (X, Y ) (X,Y)关于 X X X Y Y Y的边缘分布律。

边缘概率密度

对于连续型随机变量 ( X , Y ) (X,Y) (X,Y),设其概率密度为 f ( x , y ) f(x,y) f(x,y),由于
F X ( x ) = F ( x , ∞ ) = ∫ − ∞ x ( ∫ − ∞ ∞ f ( x , y ) d y ) d x F_X(x) = F(x,\infty) = \int_{-\infty}^x\left(\int_{-\infty}^\infty f(x,y)dy\right)dx FX(x)=F(x,)=x(f(x,y)dy)dx
由此可知 X X X是一个连续型随机变量,而且其概率密度函数为:
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^\infty f(x,y)dy fX(x)=f(x,y)dy
同样, Y Y Y也是一个连续型随机变量,而且其概率密度函数为:
f Y ( y ) = ∫ − ∞ ∞ f ( x , y ) d x f_Y(y) = \int_{-\infty}^\infty f(x,y)dx fY(y)=f(x,y)dx
f X ( x ) f_X(x) fX(x) f Y ( y ) f_Y(y) fY(y)分别是关于 X X X和关于 Y Y Y的边缘概率密度。

条件分布律

下面来考虑事件 { Y = y j } \{Y = y_j\} {Y=yj}在已发生的条件下事件 { X = x i } \{X = x_i\} {X=xi}发生的概率,也就是求事件 { X = x i ∣ Y = y j } \{X = x_i | Y = y_j\} {X=xiY=yj}的概率。
( X , Y ) (X, Y ) (X,Y)是二维离散型随机变量,对于固定的 j j j,若 P ( Y = y j ) > 0 P(Y = y_j) > 0 P(Y=yj)>0,则称:
P ( X = x i ∣ Y = y j ) = P ( X = x i , Y = y i ) P ( Y = y j ) P(X = x_i|Y = y_j) = \frac{P(X = x_i,Y = y_i)}{P(Y = y_j)} P(X=xiY=yj)=P(Y=yj)P(X=xi,Y=yi)
为在 Y = y j Y = y_j Y=yj条件下随机变量 X X X的条件分布律。
类似地,对于固定的 i i i,若 P ( X = x i ) > 0 P(X = x_i) > 0 P(X=xi)>0,则称:
P ( Y = y j ∣ X = x i ) = P ( X = x i , Y = y i ) P ( X = x i ) P(Y = y_j|X = x_i) = \frac{P(X = x_i,Y = y_i)}{P(X = x_i)} P(Y=yjX=xi)=P(X=xi)P(X=xi,Y=yi)
为在 X = x i X = x_i X=xi条件下随机变量 Y Y Y的条件分布律。

条件概率密度

设二维随机变量 ( X , Y ) (X,Y) (X,Y)的概率密度为 f ( x , y ) f(x,y) f(x,y) ( X , Y ) (X,Y) (X,Y)关于 Y Y Y的边缘概率密度为 f Y ( y ) f_Y(y) fY(y)。若对于固定的y,fY(y) > 0,则在Y = y条件下X的条件概率密度定义为:
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)} fXY(xy)=fY(y)f(x,y)
与之对应地,在 Y = y Y = y Y=y条件下 X X X的条件分布函数定义为:
F X ∣ Y ( x ∣ y ) = ∫ − ∞ x f ( x , y ) f Y ( y ) d x F_{X|Y}(x|y) = \int_{-\infty}^x \frac{f(x,y)}{f_Y(y)}dx FXY(xy)=xfY(y)f(x,y)dx
类似地,我们也可以定义在X = x条件下Y的条件概率密度和条件分布函数。

相互独立的随机变量

F ( x , y ) F(x,y) F(x,y) F X ( x ) F_X(x) FX(x) F Y ( y ) F_Y(y) FY(y)分别是二维随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数及边缘概率分布,如果对于所有的 x x x y y y有:
P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) F ( x , y ) = F X ( x ) F Y ( y ) P(X \leq x,Y \leq y) = P(X \leq x)P(Y \leq y) \\ F(x, y) = F_X(x)F_Y(y) P(Xx,Yy)=P(Xx)P(Yy)F(x,y)=FX(x)FY(y)
则称随机变量 X X X Y Y Y相互独立
X X X Y Y Y是离散型随机变量时, X X X Y Y Y相互独立的条件是:
P ( X = x i , Y = y j ) = P ( X = x i ) P ( Y = y j ) P(X = x_i, Y = y_j) = P(X = x_i)P(Y = y_j) P(X=xi,Y=yj)=P(X=xi)P(Y=yj)
X X X Y Y Y是连续型随机变量时, X X X Y Y Y相互独立的条件是:
f ( x , y ) = f X ( x ) f Y ( y ) f(x, y) = f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)

数学期望

设离散型随机变量 X X X的分布律为 P ( X = x k ) = p k ( k ≥ 1 ) P(X = x_k) = p_k(k ≥ 1) P(X=xk)=pk(k1),其数学期望定义为:
E ( X ) = ∑ k = 1 ∞ x k p k \mathbb{E}(X) = \sum_{k = 1}^\infty x_kp_k E(X)=k=1xkpk
类似地,设连续型变量 X X X的概率密度为 f ( x ) f (x) f(x),其数学期望定义为:
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x \mathbb{E}(X) = \int_{-\infty}^\infty xf(x)dx E(X)=xf(x)dx
例如,假定 P ( X = 0 ) = 0.3 , P ( X = 1 ) = 0.5 , P ( X = 2 ) = 0.2 P(X = 0) = 0.3,P(X = 1) = 0.5,P(X = 2) = 0.2 P(X=0)=0.3P(X=1)=0.5P(X=2)=0.2,则 X X X的数学期望计算如下:
E ( X ) = 0 × 0.3 + 1 × 0.5 + 2 × 0.2 = 0.9 \mathbb{E}(X) = 0 × 0.3 + 1 × 0.5 + 2 × 0.2 = 0.9 E(X)=0×0.3+1×0.5+2×0.2=0.9

随机变量函数的数学期望

Y Y Y是随机变量 X X X的连续函数,即 Y = g ( X ) Y = g(X) Y=g(X)。如果 X X X是离散型随机变量,其分布律为 P ( X = x k ) = p k ( k ≥ 1 ) P(X = x_k) = p_k(k ≥ 1) P(X=xk)=pk(k1),则 Y Y Y的数学期望定义为:
E ( Y ) = E ( g ( X ) ) = ∑ k = 1 ∞ g ( x k ) p k \mathbb{E}(Y) = \mathbb{E}(g(X))= \sum_{k = 1}^\infty g(x_k)p_k E(Y)=E(g(X))=k=1g(xk)pk
如果 X X X是连续型随机变量,其概率密度为 f ( x ) f (x) f(x),则 Y Y Y的数学期望定义为:
E ( Y ) = E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x \mathbb{E}(Y) = \mathbb{E}(g(X))= \int_{-\infty}^\infty g(x)f(x)dx E(Y)=E(g(X))=g(x)f(x)dx

数学期望的性质

  • C C C为实常数,则有 E ( C ) = C \mathbb{E}(C) = C E(C)=C
  • X X X是一个随机变量, C C C是常数,则有 E ( C X ) = C E ( X ) \mathbb{E}(CX) = C\mathbb{E}(X) E(CX)=CE(X)
  • X X X Y Y Y是两个随机变量,则有 E ( X + Y ) = E ( X ) + E ( Y ) \mathbb{E}(X + Y) = \mathbb{E}(X) + \mathbb{E}(Y) E(X+Y)=E(X)+E(Y)。这一性质可以推广到任意有限个随机变量之和的情况。
  • X X X Y Y Y是两个相互独立的随机变量,则有 E ( X Y ) = E ( X ) E ( Y ) \mathbb{E}(XY) = \mathbb{E}(X)\mathbb{E}(Y) E(XY)=E(X)E(Y)。这一 性质可以推广到任意有限个相互独立的随机变量之积的情况。

方差

方差用于度量随机变量与其均值的偏离程度。设 X X X是一个随机变量, X X X的方差定义为:
D ( X ) = V a r ( X ) = E ( ( X − E ( X ) ) 2 ) D(X) = Var(X) = \mathbb{E}((X - \mathbb{E}(X))^2) D(X)=Var(X)=E((XE(X))2)
我们通常将 D ( X ) \sqrt{D(X)} D(X) 记为 σ ( X ) \sigma(X) σ(X),称为标准差或者均方差。
对于离散型随机变量,方差计算公式为
D ( X ) = ∑ k = 1 ∞ ( x k − E ( X ) ) 2 p k D(X) = \sum_{k = 1}^\infty(x_k - \mathbb{E}(X))^2p_k D(X)=k=1(xkE(X))2pk
对于连续型随机变量,方差计算公式为:
D ( X ) = ∫ − ∞ ∞ ( x − E ( X ) ) 2 f ( x ) d x D(X) = \int_{-\infty}^{\infty}(x - \mathbb{E}(X))^2f(x)dx D(X)=(xE(X))2f(x)dx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值