【概率论】基本概念

未经同意,禁止转载

本文为本人在校学习笔记,若有疑问或谬误,欢迎探讨、指出。

【概率论】基本概念

简单运算

  1. 集合扩充
    A ∪ B = A ∪ A ‾ B = B ∪ A B ‾ = A B ‾ ∪ A B ∪ A ‾ B A \cup B = A \cup \overline{A}B = B \cup A\overline{B} = A\overline{B} \cup AB \cup \overline{A}B AB=AAB=BAB=ABABAB

  2. 加法公式
    P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A \cup B) = P(A) + P(B) - P(AB) P(AB)=P(A)+P(B)P(AB)
    一般化 → \to Jordan公式

  3. 易错

    • P ( A ∪ B ) ≠ P ( A ) + P ( B ) P(A\cup B) \ne P(A)+P(B) P(AB)=P(A)+P(B),仅当不相容时相等

    • P ( A − B ) ≠ P ( A ) − P ( B ) P(A - B) \ne P(A) - P(B) P(AB)=P(A)P(B)

    • P ( A B ) ≠ P ( A ) P ( B ) P(AB) \ne P(A)P(B) P(AB)=P(A)P(B),仅当相互独立时成立

条件概率

P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)

1. 乘法定理

P ( A B ) = P ( B ∣ A ) P ( A ) P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) . . . P(AB) = P(B|A)P(A) \\ P(ABC) = P(C|AB)P(B|A)P(A) \\ ... P(AB)=P(BA)P(A)P(ABC)=P(CAB)P(BA)P(A)...

2. 全概率公式

P ( A ) = ∑ i n P ( A ∣ B i ) P ( B i ) , S = ⋃ i n B i P(A) = \sum_i^n P(A|B_i)P(B_i), \quad S = \bigcup_i^n B_i P(A)=inP(ABi)P(Bi),S=inBi

也即有
P ( A ) = ∑ i n P ( A B i ) , S = ⋃ i n B i P ( A B ˉ ) = P ( A ) − P ( A B ) … P(A) = \sum_i^n P(AB_i), \quad S = \bigcup_i^n B_i \\ P(A\bar{B}) = P(A) - P(AB) \\ \dots P(A)=inP(ABi),S=inBiP(ABˉ)=P(A)P(AB)

3. 贝叶斯公式 (Bayes Law)

P ( A ∣ B i ) = P ( B i ∣ A ) P ( A ) P ( B i ) = P ( B i ∣ A ) P ( A ) ∑ i n P ( A ∣ B i ) P ( B i ) P(A|B_i) = \frac{P(B_i|A)P(A)}{P(B_i)} = \frac{P(B_i|A)P(A)}{\sum_i^n P(A|B_i)P(B_i)} P(ABi)=P(Bi)P(BiA)P(A)=inP(ABi)P(Bi)P(BiA)P(A)

贝叶斯公式从数量上刻画了先后验概率的差异

4. 独立性

  • 两个事件相互独立

P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

  • 三个事件相互独立
    { P ( A B ) = P ( A ) P ( B ) P ( B C ) = P ( B ) P ( C ) P ( A C ) = P ( A ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \begin{cases} P(AB) = P(A)P(B) \\ P(BC) = P(B)P(C) \\ P(AC) = P(A)P(C) \\ P(ABC) = P(A)P(B)P(C) \\ \end{cases} P(AB)=P(A)P(B)P(BC)=P(B)P(C)P(AC)=P(A)P(C)P(ABC)=P(A)P(B)P(C)
    仅满足其中若干个式子不足以判定相互独立

  • 若n个事件相互独立,至少有一个发生的概率:
    P ( ⋃ i = 1 n A i ) = 1 − P ( ⋃ i = 1 n A i ‾ ) = 1 − P ( ⋂ i = 1 n A i ‾ ) = 1 − ∏ i = 1 n P ( A i ‾ ) \begin{aligned} & P(\bigcup_{i=1}^n A_i) \\ & = 1 - P(\overline{\bigcup_{i=1}^n A_i}) \\ & = 1 - P(\bigcap_{i=1}^n \overline{A_i}) \\ & = 1 - \prod_{i=1}^{n}P(\overline{A_i}) \\ \end{aligned} P(i=1nAi)=1P(i=1nAi)=1P(i=1nAi)=1i=1nP(Ai)
    最后一个式子很好理解:除了n个事件都不发生之外,其他情况都符合。

  • 独立和互斥

    当两个事件的概率都不为0时,两者互斥不独立,独立不互斥。

    • P ( A ) > 0 P(A) > 0 P(A)>0 P ( B ) > 0 P(B) > 0 P(B)>0
      • 互斥 ⇒ \Rightarrow 不独立
      • 独立 ⇒ \Rightarrow 不互斥
    • P ( A ) = 0 ∪ P ( B ) = 0 P(A) = 0 \cup P(B) = 0 P(A)=0P(B)=0 时 (至少有一个为0)
      • 互斥 ⇒ \Rightarrow 独立
      • 独立 ⇏ \nRightarrow 互斥

数字特征

常见分布的数字特征

分布期望方差
(0-1) Distribution X ∼ B ( 1 , p ) X \sim B(1,p) XB(1,p) p p p p ( 1 − p ) p(1-p) p(1p)
Binomial Distribution X ∼ B ( n , p ) X \sim B(n,p) XB(n,p) n p np np n p ( 1 − p ) np(1-p) np(1p)
Poisson Distribution X ∼ π ( λ ) X \sim \pi(\lambda) Xπ(λ) λ \lambda λ λ \lambda λ
Geometric Distribution X ∼ G ( p ) X \sim G(p) XG(p) 1 p \frac{1}{p} p1 1 − p p 2 \frac{1-p}{p^2} p21p
Uniform Distribution X ∼ U ( a , b ) X \sim U(a,b) XU(a,b) 1 2 ( a + b ) \frac{1}{2}(a+b) 21(a+b) 1 12 ( b − a ) 2 \frac{1}{12}(b-a)^2 121(ba)2
Exponential Distribution X ∼ E ( θ ) X \sim E(\theta) XE(θ) θ \theta θ θ 2 \theta^2 θ2
Gamma Distribution X ∼ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) XΓ(α,β) α β \alpha\beta αβ α β 2 \alpha\beta^2 αβ2
Normal Distribution X ∼ N ( μ , σ ) X \sim N(\mu, \sigma) XN(μ,σ) μ \mu μ σ 2 \sigma^2 σ2
chi-square Distribution X ∼ χ 2 ( n ) X \sim \chi^2(n) Xχ2(n) n n n 2 n 2n 2n

1. 数学期望

又称为均值。采样样本很大时可以,频率可以近似为概率,进而用于估计期望。

  • 离散型

    级数需要绝对收敛,否则没有数学期望。
    P { X = x k } = p k , k = 1 , 2 , 3... E ( X ) = ∑ k = 1 ∞ x k p k P\{X = x_k\} = p_k, \quad k = 1,2,3... \\ E(X) = \sum_{k=1}^\infty x_k p_k P{X=xk}=pk,k=1,2,3...E(X)=k=1xkpk

  • 连续型

    积分需要绝对收敛。
    X ∼ f ( x ) E ( X ) = ∫ − ∞ ∞ x f ( x ) d x X \sim f(x) \\ E(X) = \int_{-\infty}^\infty xf(x) \mathrm{d}x Xf(x)E(X)=xf(x)dx

  • 随机向量

    X , Y ∼ f ( x , y ) X, Y \sim f(x, y) X,Yf(x,y)
    E ( X ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x f ( x , y ) d x d y = ∫ − ∞ ∞ x f Y ( y ) d y E ( Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ y f ( x , y ) d x d y = ∫ − ∞ ∞ y f X ( y ) d y E(X) = \int_{-\infty}^\infty\int_{-\infty}^\infty xf(x,y) \mathrm{d}x \mathrm{d}y = \int_{-\infty}^\infty xf_Y(y) \mathrm{d}y \\ E(Y) = \int_{-\infty}^\infty\int_{-\infty}^\infty yf(x,y) \mathrm{d}x \mathrm{d}y = \int_{-\infty}^\infty yf_X(y) \mathrm{d}y E(X)=xf(x,y)dxdy=xfY(y)dyE(Y)=yf(x,y)dxdy=yfX(y)dy

  • 函数替换

    Y = g ( X ) Y = g(X) Y=g(X) g g g 为连续函数,则连续和离散型随机变量分别有:
    E ( Y ) = E [ g ( X ) ] = ∑ k = 1 ∞ g ( x k ) p k E ( Y ) = E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f ( x ) d x E(Y) = E[g(X)] = \sum_{k=1}^\infty g(x_k)p_k \\ E(Y) = E[g(X)] = \int_{-\infty}^\infty g(x)f(x) \mathrm{d}x \\ E(Y)=E[g(X)]=k=1g(xk)pkE(Y)=E[g(X)]=g(x)f(x)dx
    若为随机向量的函数 Z = g ( X , Y ) Z = g(X, Y) Z=g(X,Y) g g g 为连续函数,且 ( X , Y ) ∼ f ( x , y ) (X, Y) \sim f(x,y) (X,Y)f(x,y) ,则:
    E ( Z ) = E [ g ( X , Y ) ] = ∑ j = 1 ∞ ∑ i = 1 ∞ g ( x i , y j ) p i j E ( Z ) = E [ g ( X , Y ) ] = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) f ( x , y ) d x d y E(Z) = E[g(X, Y)] = \sum_{j=1}^\infty \sum_{i=1}^\infty g(x_i, y_j)p_{ij} \\ E(Z) = E[g(X, Y)] = \int_{-\infty}^\infty\int_{-\infty}^\infty g(x,y)f(x,y) \mathrm{d}x\mathrm{d}y \\ E(Z)=E[g(X,Y)]=j=1i=1g(xi,yj)pijE(Z)=E[g(X,Y)]=g(x,y)f(x,y)dxdy

  • 计算性质

    C C C 为常数, X i X_i Xi 为随机变量。

    • E ( C ) = C E(C) = C E(C)=C

    • 线性组合的数学期望 = 数学期望的线性组合

      • E ( C X ) = C E ( X ) E(CX) = CE(X) E(CX)=CE(X)
      • E ( ∑ X i ) = ∑ E ( X i ) E(\sum X_i) = \sum E(X_i) E(Xi)=E(Xi)
    • X i X_i Xi 相互独立,则:

      E ( ∏ X i ) = ∏ E ( X i ) E(\prod X_i) = \prod E(X_i) E(Xi)=E(Xi)

  • 其它

    连续型随机变量的概率密度图像关于y轴对称时,其均值为0。

2. 方差

表达随机变量的取值对于其数学期望的偏离程度。

方差本身也是一种期望,其定义为
D ( X ) = V a r ( X ) = E { [ X − E ( X ) ] 2 } D(X) = Var(X) = E\{[X - E(X)]^2\} D(X)=Var(X)=E{[XE(X)]2}
标准差/均方差
σ ( X ) = D ( X ) \sigma(X) = \sqrt{D(X)} σ(X)=D(X)
易得
D ( X ) = ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k D ( X ) = ∫ − ∞ ∞ [ x − E ( X ) ] 2 f ( x ) d x D(X) = \sum_{k=1}^\infty [x_k - E(X)]^2 p_k \\ D(X) = \int_{-\infty}^{\infty} [x-E(X)]^2 f(x) \mathrm{d}x D(X)=k=1[xkE(X)]2pkD(X)=[xE(X)]2f(x)dx
计算中更常用
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X) = E(X^2) - [E(X)]^2 D(X)=E(X2)[E(X)]2

移项有
E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 E(X^2) = D(X) + [E(X)]^2 E(X2)=D(X)+[E(X)]2

  • 计算性质

    a a a 为常数,

    1. D ( a ) = 0 D(a) = 0 D(a)=0

    2. D ( a X ) = a 2 D ( X ) D(aX) = a^2D(X) D(aX)=a2D(X)

    3. D ( X + b ) = D ( X ) D(X + b) = D(X) D(X+b)=D(X)

    4. 这里注意协方差项前的2

      D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = D ( X ) + D ( Y ) ± 2 C o v ( X , Y ) \begin{aligned} D(X\pm Y) & = D(X) + D(Y) \pm 2E\{[X-E(X)][Y-E(Y)]\} \\ & = D(X) + D(Y) \pm 2Cov(X, Y) \\ \end{aligned} D(X±Y)=D(X)+D(Y)±2E{[XE(X)][YE(Y)]}=D(X)+D(Y)±2Cov(X,Y)

    5. 若所有随机变量==相互独立==(协方差项为0),则
      D ( ∑ a i X i ) = ∑ a i 2 D ( X i ) D(\sum a_iX_i) = \sum a_i^2D(X_i) D(aiXi)=ai2D(Xi)
      故线性组合的方差可以写成
      D ( ∑ a i X i + b ) = ∑ a i 2 D ( X i ) D(\sum a_i X_i + b) = \sum a_i^2D(X_i) D(aiXi+b)=ai2D(Xi)

      (注意不论系数 a i a_i ai是正是负,都会被平方为正数)

    6. D ( X ) = 0 D(X) = 0 D(X)=0 的充要条件是
      P { X = E ( X ) } = 1 P\{X = E(X)\} = 1 P{X=E(X)}=1
      也即所有值都相同(没有偏离)。

  • 切比雪夫不等式

    对均值为 μ \mu μ 方差为 σ 2 \sigma^2 σ2 的随机变量 X X X,对于任意正整数 ε \varepsilon ε
    P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P\{|X - \mu| \ge \varepsilon\} \le \frac{\sigma^2}{\varepsilon^2} P{Xμε}ε2σ2
    或有
    P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X - \mu| \lt \varepsilon\} \ge 1 - \frac{\sigma^2}{\varepsilon^2} P{Xμ<ε}1ε2σ2
    切比雪夫不等式给出了在随机变量的分布未知的情况下,仅用均值和方差估计概率 P { ∣ X − μ ∣ ≥ ε } P\{|X - \mu| \ge \varepsilon\} P{Xμε} 界限的方法。

    image-20201120224434059

3. 协方差

  • 协方差定义
    C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}

    对连续型变量可以有
    C o v ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − μ X ) ( y − μ Y ) f ( x , y ) d x d y Cov(X, Y) = \int_{-\infty}^\infty\int_{-\infty}^\infty(x-\mu_X)(y-\mu_Y)f(x,y)\mathrm{d}x\mathrm{d}y Cov(X,Y)=(xμX)(yμY)f(x,y)dxdy

  • 常用计算方式

    将定义式展开可得
    C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X, Y) = E(XY) - E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)

  • 计算性质:双线性

    1. C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X, Y) Cov(aX,bY)=abCov(X,Y)
    2. C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) ,对 Y Y Y 同理
  • 标准化变量

    任意均值为 μ \mu μ 方差为 σ 2 ≠ 0 \sigma^2 \ne 0 σ2=0 的随机变量 X X X 有线性替换
    X ∗ = X − μ σ X^* = \frac{X-\mu}{\sigma} X=σXμ
    得到的是一个 μ ∗ = 0 , σ ∗ 2 = 1 \mu^* = 0, \sigma^{*2} = 1 μ=0,σ2=1 的随机变量 X ∗ X^* X

    (正态分布化为标准正态分布为典例)

    相关系数

    ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)

    相关系数是消去了协方差的量纲的结果,是一个可用于比较的标准化值。

    可以从标准化变量替换得到
    X ∗ = X − E ( X ) D ( X ) Y ∗ = Y − E ( Y ) D ( Y ) C o v ( X ∗ , Y ∗ ) = ρ X Y X^* = \frac{X-E(X)}{\sqrt{D(X)}} \\ Y^* = \frac{Y-E(Y)}{\sqrt{D(Y)}} \\ Cov(X^*, Y^*) = \rho_{XY} X=D(X) XE(X)Y=D(Y) YE(Y)Cov(X,Y)=ρXY

    协方差可能为负,故相关系数也可能为负,需要判断的是相关系数的绝对值

    • ∣ ρ X Y ∣ ≤ 1 |\rho_{XY}| \le 1 ρXY1

    • ∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ρXY=1 的充要条件是 ∃ a , b , s . t . P { Y = a + b X } = 1 \exist a,b, s.t. P\{Y=a+bX\} = 1 a,b,s.t.P{Y=a+bX}=1

    相关系数衡量的是两个参数之间的线性关系,系数绝对值越大线性关系越强。

    • ∣ ρ X Y ∣ = 0 |\rho_{XY}| = 0 ρXY=0 X Y XY XY 不相关。
  • ∣ ρ X Y ∣ ≠ 0 |\rho_{XY}| \ne 0 ρXY=0 X Y XY XY 线性相关。

    • ∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ρXY=1 X Y XY XY 严格线性相关。

    注意,这里的不相关是就线性关系而言,而相互独立是就一般关系而言。

    也即,不相关 ⇏ \nRightarrow 相互独立,相互独立 ⇒ \Rightarrow 不相关

    且有,线性相关 ⇒ \Rightarrow 不独立

    • 特别的,当 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 , σ 2 , ρ ) (X,Y) \sim N(\mu_1, \mu_2, \sigma_1, \sigma_2, \rho) (X,Y)N(μ1,μ2,σ1,σ2,ρ) ,两者不相关和相互独立是等价的,因为参数 ρ \rho ρ 与相关系数相等。

4. 协方差矩阵

    • E ( X k ) E(X^k) E(Xk):k阶原点矩(k阶矩)
    • E { [ X − E ( X ) ] k } E\{[X - E(X)]^k\} E{[XE(X)]k}: k阶中心矩
    • E ( X k Y l ) E(X^kY^l) E(XkYl):k阶混合矩
    • E { [ X − E ( X ) ] k [ Y − E ( Y ) ] l } E\{[X - E(X)]^k[Y - E(Y)]^l\} E{[XE(X)]k[YE(Y)]l}:k阶混合中心矩

    可知2阶中心矩为方差,2阶混合中心矩为协方差

  • 协方差矩阵

    有n维随机变量 ( X 1 , X 2 , . . . , X n ) (X_1, X_2, ..., X_n) (X1,X2,...,Xn),设各维的二阶混合中心矩都存在且表示为 c i j = C o v ( X i , X j ) c_{ij} = Cov(X_i, X_j) cij=Cov(Xi,Xj),则协方差矩阵为
    C = ( c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋮ c n 1 c n 2 ⋯ c n n ) \boldsymbol{C} = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n}\\ \vdots & \vdots & & \vdots\\ c_{n1} & c_{n2} & \cdots & c_{nn}\\ \end{pmatrix} C=c11c21cn1c12c22cn2c1nc2ncnn
    显然协方差矩阵为对称阵。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值