未经同意,禁止转载
本文为本人在校学习笔记,若有疑问或谬误,欢迎探讨、指出。
文章目录
【概率论】基本概念
简单运算
-
集合扩充
A ∪ B = A ∪ A ‾ B = B ∪ A B ‾ = A B ‾ ∪ A B ∪ A ‾ B A \cup B = A \cup \overline{A}B = B \cup A\overline{B} = A\overline{B} \cup AB \cup \overline{A}B A∪B=A∪AB=B∪AB=AB∪AB∪AB -
加法公式
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A \cup B) = P(A) + P(B) - P(AB) P(A∪B)=P(A)+P(B)−P(AB)
一般化 → \to → Jordan公式 -
易错:
-
P ( A ∪ B ) ≠ P ( A ) + P ( B ) P(A\cup B) \ne P(A)+P(B) P(A∪B)=P(A)+P(B),仅当不相容时相等
-
P ( A − B ) ≠ P ( A ) − P ( B ) P(A - B) \ne P(A) - P(B) P(A−B)=P(A)−P(B)
-
P ( A B ) ≠ P ( A ) P ( B ) P(AB) \ne P(A)P(B) P(AB)=P(A)P(B),仅当相互独立时成立
-
条件概率
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
1. 乘法定理
P ( A B ) = P ( B ∣ A ) P ( A ) P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) . . . P(AB) = P(B|A)P(A) \\ P(ABC) = P(C|AB)P(B|A)P(A) \\ ... P(AB)=P(B∣A)P(A)P(ABC)=P(C∣AB)P(B∣A)P(A)...
2. 全概率公式
P ( A ) = ∑ i n P ( A ∣ B i ) P ( B i ) , S = ⋃ i n B i P(A) = \sum_i^n P(A|B_i)P(B_i), \quad S = \bigcup_i^n B_i P(A)=i∑nP(A∣Bi)P(Bi),S=i⋃nBi
也即有
P
(
A
)
=
∑
i
n
P
(
A
B
i
)
,
S
=
⋃
i
n
B
i
P
(
A
B
ˉ
)
=
P
(
A
)
−
P
(
A
B
)
…
P(A) = \sum_i^n P(AB_i), \quad S = \bigcup_i^n B_i \\ P(A\bar{B}) = P(A) - P(AB) \\ \dots
P(A)=i∑nP(ABi),S=i⋃nBiP(ABˉ)=P(A)−P(AB)…
3. 贝叶斯公式 (Bayes Law)
P ( A ∣ B i ) = P ( B i ∣ A ) P ( A ) P ( B i ) = P ( B i ∣ A ) P ( A ) ∑ i n P ( A ∣ B i ) P ( B i ) P(A|B_i) = \frac{P(B_i|A)P(A)}{P(B_i)} = \frac{P(B_i|A)P(A)}{\sum_i^n P(A|B_i)P(B_i)} P(A∣Bi)=P(Bi)P(Bi∣A)P(A)=∑inP(A∣Bi)P(Bi)P(Bi∣A)P(A)
贝叶斯公式从数量上刻画了先后验概率的差异
4. 独立性
- 两个事件相互独立
P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)
-
三个事件相互独立
{ P ( A B ) = P ( A ) P ( B ) P ( B C ) = P ( B ) P ( C ) P ( A C ) = P ( A ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \begin{cases} P(AB) = P(A)P(B) \\ P(BC) = P(B)P(C) \\ P(AC) = P(A)P(C) \\ P(ABC) = P(A)P(B)P(C) \\ \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧P(AB)=P(A)P(B)P(BC)=P(B)P(C)P(AC)=P(A)P(C)P(ABC)=P(A)P(B)P(C)
仅满足其中若干个式子不足以判定相互独立 -
若n个事件相互独立,至少有一个发生的概率:
P ( ⋃ i = 1 n A i ) = 1 − P ( ⋃ i = 1 n A i ‾ ) = 1 − P ( ⋂ i = 1 n A i ‾ ) = 1 − ∏ i = 1 n P ( A i ‾ ) \begin{aligned} & P(\bigcup_{i=1}^n A_i) \\ & = 1 - P(\overline{\bigcup_{i=1}^n A_i}) \\ & = 1 - P(\bigcap_{i=1}^n \overline{A_i}) \\ & = 1 - \prod_{i=1}^{n}P(\overline{A_i}) \\ \end{aligned} P(i=1⋃nAi)=1−P(i=1⋃nAi)=1−P(i=1⋂nAi)=1−i=1∏nP(Ai)
最后一个式子很好理解:除了n个事件都不发生之外,其他情况都符合。 -
独立和互斥
当两个事件的概率都不为0时,两者互斥不独立,独立不互斥。
- 当
P
(
A
)
>
0
P(A) > 0
P(A)>0 且
P
(
B
)
>
0
P(B) > 0
P(B)>0 时
- 互斥 ⇒ \Rightarrow ⇒ 不独立
- 独立 ⇒ \Rightarrow ⇒ 不互斥
- 当
P
(
A
)
=
0
∪
P
(
B
)
=
0
P(A) = 0 \cup P(B) = 0
P(A)=0∪P(B)=0 时 (至少有一个为0)
- 互斥 ⇒ \Rightarrow ⇒ 独立
- 独立 ⇏ \nRightarrow ⇏ 互斥
- 当
P
(
A
)
>
0
P(A) > 0
P(A)>0 且
P
(
B
)
>
0
P(B) > 0
P(B)>0 时
数字特征
常见分布的数字特征
分布 | 期望 | 方差 |
---|---|---|
(0-1) Distribution X ∼ B ( 1 , p ) X \sim B(1,p) X∼B(1,p) | p p p | p ( 1 − p ) p(1-p) p(1−p) |
Binomial Distribution X ∼ B ( n , p ) X \sim B(n,p) X∼B(n,p) | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
Poisson Distribution X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ) | λ \lambda λ | λ \lambda λ |
Geometric Distribution X ∼ G ( p ) X \sim G(p) X∼G(p) | 1 p \frac{1}{p} p1 | 1 − p p 2 \frac{1-p}{p^2} p21−p |
Uniform Distribution X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b) | 1 2 ( a + b ) \frac{1}{2}(a+b) 21(a+b) | 1 12 ( b − a ) 2 \frac{1}{12}(b-a)^2 121(b−a)2 |
Exponential Distribution X ∼ E ( θ ) X \sim E(\theta) X∼E(θ) | θ \theta θ | θ 2 \theta^2 θ2 |
Gamma Distribution X ∼ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) X∼Γ(α,β) | α β \alpha\beta αβ | α β 2 \alpha\beta^2 αβ2 |
Normal Distribution X ∼ N ( μ , σ ) X \sim N(\mu, \sigma) X∼N(μ,σ) | μ \mu μ | σ 2 \sigma^2 σ2 |
chi-square Distribution X ∼ χ 2 ( n ) X \sim \chi^2(n) X∼χ2(n) | n n n | 2 n 2n 2n |
1. 数学期望
又称为均值。采样样本很大时可以,频率可以近似为概率,进而用于估计期望。
-
离散型
级数需要绝对收敛,否则没有数学期望。
P { X = x k } = p k , k = 1 , 2 , 3... E ( X ) = ∑ k = 1 ∞ x k p k P\{X = x_k\} = p_k, \quad k = 1,2,3... \\ E(X) = \sum_{k=1}^\infty x_k p_k P{X=xk}=pk,k=1,2,3...E(X)=k=1∑∞xkpk -
连续型
积分需要绝对收敛。
X ∼ f ( x ) E ( X ) = ∫ − ∞ ∞ x f ( x ) d x X \sim f(x) \\ E(X) = \int_{-\infty}^\infty xf(x) \mathrm{d}x X∼f(x)E(X)=∫−∞∞xf(x)dx -
随机向量
X , Y ∼ f ( x , y ) X, Y \sim f(x, y) X,Y∼f(x,y)
E ( X ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x f ( x , y ) d x d y = ∫ − ∞ ∞ x f Y ( y ) d y E ( Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ y f ( x , y ) d x d y = ∫ − ∞ ∞ y f X ( y ) d y E(X) = \int_{-\infty}^\infty\int_{-\infty}^\infty xf(x,y) \mathrm{d}x \mathrm{d}y = \int_{-\infty}^\infty xf_Y(y) \mathrm{d}y \\ E(Y) = \int_{-\infty}^\infty\int_{-\infty}^\infty yf(x,y) \mathrm{d}x \mathrm{d}y = \int_{-\infty}^\infty yf_X(y) \mathrm{d}y E(X)=∫−∞∞∫−∞∞xf(x,y)dxdy=∫−∞∞xfY(y)dyE(Y)=∫−∞∞∫−∞∞yf(x,y)dxdy=∫−∞∞yfX(y)dy -
函数替换
若 Y = g ( X ) Y = g(X) Y=g(X) 且 g g g 为连续函数,则连续和离散型随机变量分别有:
E ( Y ) = E [ g ( X ) ] = ∑ k = 1 ∞ g ( x k ) p k E ( Y ) = E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f ( x ) d x E(Y) = E[g(X)] = \sum_{k=1}^\infty g(x_k)p_k \\ E(Y) = E[g(X)] = \int_{-\infty}^\infty g(x)f(x) \mathrm{d}x \\ E(Y)=E[g(X)]=k=1∑∞g(xk)pkE(Y)=E[g(X)]=∫−∞∞g(x)f(x)dx
若为随机向量的函数 Z = g ( X , Y ) Z = g(X, Y) Z=g(X,Y) 且 g g g 为连续函数,且 ( X , Y ) ∼ f ( x , y ) (X, Y) \sim f(x,y) (X,Y)∼f(x,y) ,则:
E ( Z ) = E [ g ( X , Y ) ] = ∑ j = 1 ∞ ∑ i = 1 ∞ g ( x i , y j ) p i j E ( Z ) = E [ g ( X , Y ) ] = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) f ( x , y ) d x d y E(Z) = E[g(X, Y)] = \sum_{j=1}^\infty \sum_{i=1}^\infty g(x_i, y_j)p_{ij} \\ E(Z) = E[g(X, Y)] = \int_{-\infty}^\infty\int_{-\infty}^\infty g(x,y)f(x,y) \mathrm{d}x\mathrm{d}y \\ E(Z)=E[g(X,Y)]=j=1∑∞i=1∑∞g(xi,yj)pijE(Z)=E[g(X,Y)]=∫−∞∞∫−∞∞g(x,y)f(x,y)dxdy -
计算性质
设 C C C 为常数, X i X_i Xi 为随机变量。
-
E ( C ) = C E(C) = C E(C)=C
-
线性组合的数学期望 = 数学期望的线性组合
- E ( C X ) = C E ( X ) E(CX) = CE(X) E(CX)=CE(X)
- E ( ∑ X i ) = ∑ E ( X i ) E(\sum X_i) = \sum E(X_i) E(∑Xi)=∑E(Xi)
-
若 X i X_i Xi 相互独立,则:
E ( ∏ X i ) = ∏ E ( X i ) E(\prod X_i) = \prod E(X_i) E(∏Xi)=∏E(Xi)
-
-
其它
连续型随机变量的概率密度图像关于y轴对称时,其均值为0。
2. 方差
表达随机变量的取值对于其数学期望的偏离程度。
方差本身也是一种期望,其定义为
D
(
X
)
=
V
a
r
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
D(X) = Var(X) = E\{[X - E(X)]^2\}
D(X)=Var(X)=E{[X−E(X)]2}
标准差/均方差
σ
(
X
)
=
D
(
X
)
\sigma(X) = \sqrt{D(X)}
σ(X)=D(X)
易得
D
(
X
)
=
∑
k
=
1
∞
[
x
k
−
E
(
X
)
]
2
p
k
D
(
X
)
=
∫
−
∞
∞
[
x
−
E
(
X
)
]
2
f
(
x
)
d
x
D(X) = \sum_{k=1}^\infty [x_k - E(X)]^2 p_k \\ D(X) = \int_{-\infty}^{\infty} [x-E(X)]^2 f(x) \mathrm{d}x
D(X)=k=1∑∞[xk−E(X)]2pkD(X)=∫−∞∞[x−E(X)]2f(x)dx
计算中更常用
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
D(X) = E(X^2) - [E(X)]^2
D(X)=E(X2)−[E(X)]2
移项有
E
(
X
2
)
=
D
(
X
)
+
[
E
(
X
)
]
2
E(X^2) = D(X) + [E(X)]^2
E(X2)=D(X)+[E(X)]2
-
计算性质
a a a 为常数,
-
D ( a ) = 0 D(a) = 0 D(a)=0
-
D ( a X ) = a 2 D ( X ) D(aX) = a^2D(X) D(aX)=a2D(X)
-
D ( X + b ) = D ( X ) D(X + b) = D(X) D(X+b)=D(X)
-
这里注意协方差项前的2
D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = D ( X ) + D ( Y ) ± 2 C o v ( X , Y ) \begin{aligned} D(X\pm Y) & = D(X) + D(Y) \pm 2E\{[X-E(X)][Y-E(Y)]\} \\ & = D(X) + D(Y) \pm 2Cov(X, Y) \\ \end{aligned} D(X±Y)=D(X)+D(Y)±2E{[X−E(X)][Y−E(Y)]}=D(X)+D(Y)±2Cov(X,Y)
-
若所有随机变量==相互独立==(协方差项为0),则
D ( ∑ a i X i ) = ∑ a i 2 D ( X i ) D(\sum a_iX_i) = \sum a_i^2D(X_i) D(∑aiXi)=∑ai2D(Xi)
故线性组合的方差可以写成
D ( ∑ a i X i + b ) = ∑ a i 2 D ( X i ) D(\sum a_i X_i + b) = \sum a_i^2D(X_i) D(∑aiXi+b)=∑ai2D(Xi)(注意不论系数 a i a_i ai是正是负,都会被平方为正数)
-
D ( X ) = 0 D(X) = 0 D(X)=0 的充要条件是
P { X = E ( X ) } = 1 P\{X = E(X)\} = 1 P{X=E(X)}=1
也即所有值都相同(没有偏离)。
-
-
切比雪夫不等式
对均值为 μ \mu μ 方差为 σ 2 \sigma^2 σ2 的随机变量 X X X,对于任意正整数 ε \varepsilon ε 有
P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P\{|X - \mu| \ge \varepsilon\} \le \frac{\sigma^2}{\varepsilon^2} P{∣X−μ∣≥ε}≤ε2σ2
或有
P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X - \mu| \lt \varepsilon\} \ge 1 - \frac{\sigma^2}{\varepsilon^2} P{∣X−μ∣<ε}≥1−ε2σ2
切比雪夫不等式给出了在随机变量的分布未知的情况下,仅用均值和方差估计概率 P { ∣ X − μ ∣ ≥ ε } P\{|X - \mu| \ge \varepsilon\} P{∣X−μ∣≥ε} 界限的方法。
3. 协方差
-
协方差定义
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}对连续型变量可以有
C o v ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − μ X ) ( y − μ Y ) f ( x , y ) d x d y Cov(X, Y) = \int_{-\infty}^\infty\int_{-\infty}^\infty(x-\mu_X)(y-\mu_Y)f(x,y)\mathrm{d}x\mathrm{d}y Cov(X,Y)=∫−∞∞∫−∞∞(x−μX)(y−μY)f(x,y)dxdy -
常用计算方式
将定义式展开可得
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X, Y) = E(XY) - E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y) -
计算性质:双线性
- C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X, Y) Cov(aX,bY)=abCov(X,Y)
- C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) ,对 Y Y Y 同理
-
标准化变量
任意均值为 μ \mu μ 方差为 σ 2 ≠ 0 \sigma^2 \ne 0 σ2=0 的随机变量 X X X 有线性替换
X ∗ = X − μ σ X^* = \frac{X-\mu}{\sigma} X∗=σX−μ
得到的是一个 μ ∗ = 0 , σ ∗ 2 = 1 \mu^* = 0, \sigma^{*2} = 1 μ∗=0,σ∗2=1 的随机变量 X ∗ X^* X∗(正态分布化为标准正态分布为典例)
相关系数
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X)D(Y)Cov(X,Y)
相关系数是消去了协方差的量纲的结果,是一个可用于比较的标准化值。
可以从标准化变量替换得到
X ∗ = X − E ( X ) D ( X ) Y ∗ = Y − E ( Y ) D ( Y ) C o v ( X ∗ , Y ∗ ) = ρ X Y X^* = \frac{X-E(X)}{\sqrt{D(X)}} \\ Y^* = \frac{Y-E(Y)}{\sqrt{D(Y)}} \\ Cov(X^*, Y^*) = \rho_{XY} X∗=D(X)X−E(X)Y∗=D(Y)Y−E(Y)Cov(X∗,Y∗)=ρXY(协方差可能为负,故相关系数也可能为负,需要判断的是相关系数的绝对值)
-
∣ ρ X Y ∣ ≤ 1 |\rho_{XY}| \le 1 ∣ρXY∣≤1
-
∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ∣ρXY∣=1 的充要条件是 ∃ a , b , s . t . P { Y = a + b X } = 1 \exist a,b, s.t. P\{Y=a+bX\} = 1 ∃a,b,s.t.P{Y=a+bX}=1
相关系数衡量的是两个参数之间的线性关系,系数绝对值越大线性关系越强。
- 当 ∣ ρ X Y ∣ = 0 |\rho_{XY}| = 0 ∣ρXY∣=0 称 X Y XY XY 不相关。
-
-
当 ∣ ρ X Y ∣ ≠ 0 |\rho_{XY}| \ne 0 ∣ρXY∣=0 称 X Y XY XY 线性相关。
- 当 ∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ∣ρXY∣=1 称 X Y XY XY 严格线性相关。
注意,这里的不相关是就线性关系而言,而相互独立是就一般关系而言。
也即,不相关 ⇏ \nRightarrow ⇏ 相互独立,相互独立 ⇒ \Rightarrow ⇒ 不相关
且有,线性相关 ⇒ \Rightarrow ⇒ 不独立
- 特别的,当 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 , σ 2 , ρ ) (X,Y) \sim N(\mu_1, \mu_2, \sigma_1, \sigma_2, \rho) (X,Y)∼N(μ1,μ2,σ1,σ2,ρ) ,两者不相关和相互独立是等价的,因为参数 ρ \rho ρ 与相关系数相等。
4. 协方差矩阵
-
矩
- E ( X k ) E(X^k) E(Xk):k阶原点矩(k阶矩)
- E { [ X − E ( X ) ] k } E\{[X - E(X)]^k\} E{[X−E(X)]k}: k阶中心矩
- E ( X k Y l ) E(X^kY^l) E(XkYl):k阶混合矩
- E { [ X − E ( X ) ] k [ Y − E ( Y ) ] l } E\{[X - E(X)]^k[Y - E(Y)]^l\} E{[X−E(X)]k[Y−E(Y)]l}:k阶混合中心矩
可知2阶中心矩为方差,2阶混合中心矩为协方差。
-
协方差矩阵
有n维随机变量 ( X 1 , X 2 , . . . , X n ) (X_1, X_2, ..., X_n) (X1,X2,...,Xn),设各维的二阶混合中心矩都存在且表示为 c i j = C o v ( X i , X j ) c_{ij} = Cov(X_i, X_j) cij=Cov(Xi,Xj),则协方差矩阵为
C = ( c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋮ c n 1 c n 2 ⋯ c n n ) \boldsymbol{C} = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n}\\ \vdots & \vdots & & \vdots\\ c_{n1} & c_{n2} & \cdots & c_{nn}\\ \end{pmatrix} C=⎝⎜⎜⎜⎛c11c21⋮cn1c12c22⋮cn2⋯⋯⋯c1nc2n⋮cnn⎠⎟⎟⎟⎞
显然协方差矩阵为对称阵。