随机过程(1.2)—— 数学期望与条件期望


1. 数学期望

1.1 本质定义

  • X X X 的分布函数为 F X ( x ) F_X(x) FX(x),且 ∫ − ∞ ∞ ∣ x ∣ d F ( x ) < ∞ \int_{-\infin}^\infin|x|dF(x) < \infin xdF(x)<,则称
    E X = ∫ − ∞ ∞ x d F X ( x ) EX = \int_{-\infin}^\infin x dF_X(x) EX=xdFX(x) X X X数学期望,其本质是 f ( x ) = x f(x) = x f(x)=x 关于其分布函数 F X ( x ) F_X(x) FX(x) 的 R-S 积分
  • 两类特殊的随机变量的数学期望
    1. X X X离散型随机变量,有 P ( X = x i ) = p i ,    i = 1 , 2 , . . . P(X=x_i) = p_i, \space\space i=1,2,... P(X=xi)=pi,  i=1,2,...,分布函数 F ( x ) F(x) F(x) 是阶梯函数,数学期望本质上是关于阶梯函数的 R-S 积分,即
      E X = ∑ i = 1 ∞ x i p i EX = \sum_{i=1}^\infin x_ip_i EX=i=1xipi
    2. X X X连续型随机变量,概率密度函数为 p ( x ) p(x) p(x),分布函数 F ( x ) F(x) F(x) 是连续函数,有 d F ( x ) = p ( x ) d x dF(x)=p(x)dx dF(x)=p(x)dx,数学期望本质上是关于连续函数的 R-S 积分,即
      E X = ∫ − ∞ ∞ x p ( x ) d x EX = \int_{-\infin}^\infin xp(x)dx EX=xp(x)dx

1.2 随机变量的函数的期望

  • X X X 的分布函数为 F X ( x ) F_X(x) FX(x) g ( x ) g(x) g(x) 为一元 R → R R\to R RR 函数,且 Y = g ( X ) Y = g(X) Y=g(X),则
    E Y = ∫ R g ( x ) d F X ( x ) EY = \int_\mathbb{R}g(x)dF_X(x) EY=Rg(x)dFX(x)
  • ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn) 的分布函数为 F ( x 1 , x 2 , . . . , x n ) F(x_1,x_2,...,x_n) F(x1,x2,...,xn) g ( x 1 , x 2 , . . . , x n ) g(x_1,x_2,...,x_n) g(x1,x2,...,xn) 为 n 元 R n → R R^n\to R RnR 函数,则
    E Y = ∫ R n g ( x 1 , x 2 , . . . , x n ) d F X 1 , X 2 , . . . , X n ( x 1 , x 2 , . . . , x n ) EY = \int_{\mathbb{R}^n}g(x_1,x_2,...,x_n)dF_{X_1,X_2,...,X_n}(x_1,x_2,...,x_n) EY=Rng(x1,x2,...,xn)dFX1,X2,...,Xn(x1,x2,...,xn)

1.3 期望的性质

  1. E X EX EX 存在,则
    ∣ E X ∣ ≤ E ∣ X ∣ |EX| \leq E|X| EXEX 这是因为随机变量的分布函数 F ( X ) F(X) F(X) 一定是单调不减函数,根据 R-S 积分性质可以证明(更本质地可以通过分割求和取极限证明,每个小区间都有 △ F ≥ 0 \triangle F\geq 0 F0
  2. Holder 不等式:对于任意的对偶数 p , q p,q p,q (即 p , q > 0 , 1 p + 1 q = 1 p,q>0,\frac{1}{p}+\frac{1}{q} =1 p,q>0,p1+q1=1),有
    ∣ E X Y ∣ ≤ E ∣ X Y ∣ ≤ ( E ∣ X ∣ p ) 1 p ( E ∣ Y ∣ q ) 1 q |EXY| \leq E|XY| \leq (E|X|^p)^\frac{1}{p}(E|Y|^q)^\frac{1}{q} EXYEXY(EXp)p1(EYq)q1 特别地,p = q = 2 时
    E ∣ X Y ∣ ≤ E X 2 E Y 2 E|XY|\leq \sqrt{EX^2EY^2} EXYEX2EY2 这个不等式的意义在于,可以用 X X X Y Y Y 的期望对 X Y XY XY 的期望做一个控制
  3. 对于 k > 0 k>0 k>0,若 E ∣ X ∣ k ≤ ∞ E|X|^k\leq \infin EXk,则 E ∣ X ∣ r ≤ ∞ E|X|^r \leq \infin EXr,其中 0 ≤ r ≤ k 0\leq r\leq k 0rk

2. 关于事件的条件数学期望(条件为一个事件)

2.1 条件期望

  • 定义:给定概率空间 ( Ω , F , P ) (\Omega,\mathscr{F},P) (Ω,F,P),令 B ∈ F B\in\mathscr{F} BF P ( B ) > 0 P(B)>0 P(B)>0 F ( x ∣ B ) = P ( X ≤ x ∣ B ) F(x|B)=P(X\leq x|B) F(xB)=P(XxB) X X X 关于事件 B B B 的条件分布函数,则 X X X 关于 B B B条件期望
    E ( X ∣ B ) = ∫ R x d F X ∣ B ( x ∣ B ) E(X|B) = \int_{\mathbb{R}} xdF_{X|B}(x|B) E(XB)=RxdFXB(xB) 随机变量的条件概率密度函数(条件分布律)其实就是一种特殊的概率密度函数(分布律)。可以换一套符号:令 Q ( ⋅ ) = P ( ⋅ ∣ B ) Q(·)=P(·|B) Q()=P(B) Q Q Q ( Ω , F ) (\Omega,\mathscr{F}) (Ω,F) 上的概率分布,且 X X X Q Q Q 下的分布函数为
    F Q ( x ) = Q ( X ≤ x ) = F ( x ∣ B ) E ( X ∣ B ) = ∫ R x d F ( x ∣ B ) = ∫ R x d F Q ( x ) = E Q ( X ) \begin{aligned} &F_Q(x) = Q(X\leq x) = F(x|B) \\ &E(X|B) = \int_\mathbb{R}xdF(x|B) = \int_\mathbb{R}xdF_Q(x) = E_Q(X) \end{aligned} FQ(x)=Q(Xx)=F(xB)E(XB)=RxdF(xB)=RxdFQ(x)=EQ(X)
  • 两类特殊的随机变量
    1. X X X 为取值 x i , i = 1 , 2 , . . . x_i,i=1,2,... xi,i=1,2,... 的离散型随机变量,则
      E ( X ∣ B ) = ∑ i = 1 ∞ x i P ( X = x i ∣ B ) E(X|B) = \sum_{i=1}^\infin x_iP(X=x_i|B) E(XB)=i=1xiP(X=xiB)
    2. X X X 为连续型随机变量,则
      E ( X ∣ B ) = ∫ − ∞ ∞ x p ( x ∣ B ) d x E(X|B) = \int_{-\infin}^\infin xp(x|B)dx E(XB)=xp(xB)dx
  • X , B X,B X,B 相互独立,即 ∀ x , { X ≤ x } \forall x,\{X\leq x\} x,{Xx} B B B 独立,则 E ( X ∣ B ) = E X E(X|B)=EX E(XB)=EX
  • 例:设 X ∼ ε ( γ ) X\sim \varepsilon(\gamma) Xε(γ), B = { X > 1 } B=\{X>1\} B={X>1},求 E ( X ∣ B ) E(X|B) E(XB)
    ∵ F ( X ∣ B ) = P ( X ≤ x ∣ X > 1 ) = P ( 1 < X ≤ z ) P ( X > 1 ) = { e − λ − e − λ x e − λ x > 1 0 x ≤ 1 ∴ f ( x ∣ B ) = { λ e − λ ( x − 1 ) x > 1 0 x ≤ 1 ∴ E ( X ∣ B ) = ∫ 1 ∞ x λ e − λ ( x − 1 ) d x = λ e λ ∫ 1 ∞ x e − λ x d x = λ \begin{aligned} &\begin{aligned} \because F(X|B) &= P(X\leq x|X>1) \\ & = \frac{P(1<X\leq z)}{P(X>1)} \\ & =\left\{ \begin{aligned} &\frac{e^{-\lambda}-e^{-\lambda x}}{e^{-\lambda}} && x>1 \\ &0 & &x\leq 1 \end{aligned} \right. \end{aligned} \\ &\therefore f(x|B) = \left\{ \begin{aligned} &\lambda e^{- \lambda(x-1)} && x>1 \\ &0 & &x\leq 1 \end{aligned} \right. \\ &\begin{aligned} \therefore E(X|B) &= \int_1^\infin x \lambda e^{- \lambda(x-1)}dx \\ &= \lambda e^\lambda \int_1^\infin xe^{-\lambda x}dx \\ &= \lambda \end{aligned} \end{aligned} F(XB)=P(XxX>1)=P(X>1)P(1<Xz)=eλeλeλx0x>1x1f(xB)={λeλ(x1)0x>1x1E(XB)=1xλeλ(x1)dx=λeλ1xeλxdx=λ

2.2 一些重要公式

  • 有时候事件概率;随机变量的分布函数、数学期望等不好求,可以把样本空间进行划分并作为条件,在这些条件的基础上,条件概率、条件分布函数、条件数学期望可能比较好求,进而间接地算出结果
  • 令样本空间为若干个不交空间的并,即 Ω = ∑ i = 1 ∞ B i \Omega = \sum_{i=1}^\infin B_i Ω=i=1Bi

2.2.1 全概率公式

∀ A ∈ F P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) \begin{aligned} &\forall A\in \mathscr{F} \\ &P(A) = \sum_{i=1}^\infin P(B_i)P(A|B_i) \end{aligned} AFP(A)=i=1P(Bi)P(ABi)

2.2.2 全分布函数公式

∀ x ∈ R F ( x ) = p ( X ≤ x ) = ∑ i = 1 ∞ P ( B i ) P ( X ≤ x ∣ B i ) = ∑ i = 1 ∞ P ( B i ) F ( x ∣ B i ) \begin{aligned} &\forall x\in \mathbb{R} \\ & \begin{aligned} F(x) &= p(X\leq x) \\ &=\sum_{i=1}^\infin P(B_i)P(X\leq x|B_i) \\ &=\sum_{i=1}^\infin P(B_i)F(x|B_i) \end{aligned} \end{aligned} xRF(x)=p(Xx)=i=1P(Bi)P(XxBi)=i=1P(Bi)F(xBi)

2.2.3 全期望公式

E X = ∫ R x d F ( x ) = ∫ R x d ∑ i = 1 ∞ P ( B i ) F ( x ∣ B i ) = ∑ i = 1 ∞ P ( B i ) ∫ R x d F ( x ∣ B i ) = ∑ i = 1 ∞ P ( B i ) E ( X ∣ B i ) \begin{aligned} EX &= \int_\mathbb{R} xdF(x) \\ & = \int_\mathbb{R} xd\sum_{i=1}^\infin P(B_i)F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) \int_\mathbb{R} xd F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) E(X|B_i) \end{aligned} EX=RxdF(x)=Rxdi=1P(Bi)F(xBi)=i=1P(Bi)RxdF(xBi)=i=1P(Bi)E(XBi)

2.2.4 条件全期望公式

  • 先算条件全分布函数公式
    F ( x ∣ A ) = P ( X ≤ x ∣ A ) : = Q ( X ≤ x ) = ∑ i = 1 ∞ Q ( B i ) Q ( X ≤ x ∣ B i ) = ∑ i = 1 ∞ Q ( B i ) Q ( X ≤ x , B i ) Q ( B i ) = ∑ i = 1 ∞ P ( B i ∣ A ) P ( X ≤ x , B i ∣ A ) P ( B i ∣ A ) = ∑ i = 1 ∞ P ( B i ∣ A ) P ( X ≤ x , A B i ) / P ( A ) P ( A B i ) / P ( A ) = ∑ i = 1 ∞ P ( B i ∣ A ) P ( X ≤ x ∣ A B i ) = ∑ i = 1 ∞ P ( B i ∣ A ) F ( x ∣ A B i ) \begin{aligned} F(x|A) &= P(X\leq x|A) \\ &:= Q(X\leq x)\\ & = \sum_{i=1}^\infin Q(B_i) Q(X\leq x|B_i) \\ & = \sum_{i=1}^\infin Q(B_i) \frac{Q(X\leq x,B_i)}{Q(B_i)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,B_i|A)}{P(B_i|A)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,AB_i)/P(A)}{P(AB_i)/P(A)} \\ & = \sum_{i=1}^\infin P(B_i|A) P(X\leq x|AB_i) \\ & = \sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \end{aligned} \\ F(xA)=P(XxA):=Q(Xx)=i=1Q(Bi)Q(XxBi)=i=1Q(Bi)Q(Bi)Q(Xx,Bi)=i=1P(BiA)P(BiA)P(Xx,BiA)=i=1P(BiA)P(ABi)/P(A)P(Xx,ABi)/P(A)=i=1P(BiA)P(XxABi)=i=1P(BiA)F(xABi)
  • 再根据期望的定义( x x x 关于分布函数的R-S积分)计算条件全期望公式
    E ( X ∣ A ) = ∫ R x d F ( x ∣ A ) = ∫ R x d ∑ i = 1 ∞ P ( B i ∣ A ) F ( x ∣ A B i ) = ∑ i = 1 n P ( B i ∣ A ) ∫ R x d F ( x ∣ A B i ) = ∑ i = 1 n P ( B i ∣ A ) E ( X ∣ A B i ) \begin{aligned} E(X|A) &= \int_{\mathbb{R}}xdF(x|A) \\ & = \int_{\mathbb{R}}xd\sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A) \int_{\mathbb{R}}xdF(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A)E(X|AB_i) \end{aligned} E(XA)=RxdF(xA)=Rxdi=1P(BiA)F(xABi)=i=1nP(BiA)RxdF(xABi)=i=1nP(BiA)E(XABi)

2.3 Example

  • 设 r.v.s { X n , n ≥ 1 } \{X_n,n\geq 1\} {Xn,n1} i.i.d,r.v. ξ \xi ξ 取正整数值且与 { X n , n ≥ 1 } \{X_n,n\geq 1\} {Xn,n1} 相互独立,求 E ( X 1 + . . . + X ξ ) , D ( X 1 + . . . + X ξ ) E(X_1+...+X_\xi),D(X_1+...+X_\xi) E(X1+...+Xξ),D(X1+...+Xξ)
  • 分析:我们知道多个 i.i.d 随机变量的期望和方差如何求,这里要求和变量的个数是另一个相互独立的随机变量 ξ \xi ξ,所以可以通过 ξ \xi ξ 的取值对样本空间进行划分,转换为求全期望和全方差
    在这里插入图片描述
    在这里插入图片描述

2.4 示性随机变量

  • X X X 为 r.v., A , B ∈ F , P ( B ) > 0 A,B\in \mathscr{F},P(B)>0 A,BF,P(B)>0,则
    E ( I A ) = P ( A ) E ( I A ∣ B ) = P ( A ∣ B ) E ( X I B ) = P ( B ) E ( X ∣ B ) \begin{aligned} &E(I_A) = P(A)\\ &E(I_A|B) = P(A|B)\\ &E(XI_B)=P(B)E(X|B) \end{aligned} E(IA)=P(A)E(IAB)=P(AB)E(XIB)=P(B)E(XB) 其中 I A ( w ) = { 1 w ∈ A 0 w ∉ A I_A(w) = \left\{ \begin{aligned} &1&& w \in A \\ &0 & &w \notin A \end{aligned} \right. IA(w)={10wAw/A
  • 从示性随机变量这个例子可以看出来,概率 P P P 和期望 E E E 是一回事,而期望可以写成积分,所以概率是一种特殊的积分,那么这个积分能不能算?不能算的话能不能估计?由此引发一系列问题

3. 关于 r.v. 的条件数学期望(条件为一个 r.v.)

3.1 定义

  • g ( ⋅ ) g(·) g() R → R R\to R RR 的实值函数(这种函数和随机变量的复合仍然是随机变量),在 Y = y Y=y Y=y 的条件下, g ( X ) g(X) g(X) 的条件数学期望为:
    E ( g ( X ) ∣ y ) = E ( g ( X ) ∣ Y = y ) = ∫ R g ( x ) d F X ∣ Y ( x ∣ y ) \begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned} E(g(X)y)=E(g(X)Y=y)=Rg(x)dFXY(xy)
    需要注意的是,对于连续型随机变量, Y = y Y=y Y=y 不能看作一个事件,因为连续随机变量的点概率 P ( Y = y ) = 0 P(Y=y)=0 P(Y=y)=0,如果把它当作事件,按上面 2.2.4 节计算条件全分布函数时,会有 P ( Y = y ) P(Y=y) P(Y=y) 出现在分母位置,而 0 是不能做分母的。事实上
    1. 对于离散型随机变量, Y = y Y=y Y=y 可以看作一个事件
    2. 对于连续型随机变量, Y = y Y=y Y=y 只是一种符号表示,指求出 E ( g ( X ) ∣ Y ) E(g(X)|Y) E(g(X)Y) 后,把 Y Y Y 替换为 y y y。后面 3.4 节会进一步说明

3.2 计算

  • 3.1 节的定义式给出了计算方法。对于 X , Y X,Y X,Y 都是离散或连续的情况,可以利用以下公式计算

    1. ( X , Y ) (X,Y) (X,Y) 为二维离散型 r.v. 且 P ( Y = y ) > 0 P(Y=y)>0 P(Y=y)>0,则
      E ( g ( X ) ∣ y ) = ∑ i g ( x i ) P ( X = x i ∣ Y = y ) E(g(X)|y) = \sum_i g(x_i) P(X=x_i|Y=y) E(g(X)y)=ig(xi)P(X=xiY=y)
    2. ( X , Y ) (X,Y) (X,Y) 为二维连续型 r.v.,则
      E ( g ( X ) ∣ y ) = ∫ R g ( x ) f X ∣ Y ( x ∣ y ) d x E(g(X)|y) = \int_{\mathbb{R}}g(x)f_{X|Y}(x|y)dx E(g(X)y)=Rg(x)fXY(xy)dx
  • 注意:令 g ( ⋅ ) g(·) g() R → R R\to R RR 的实值函数,则

    1. E ( g ( X ) ∣ y ) E(g(X)|y) E(g(X)y) 是关于 y y y 的函数
    2. E ( g ( X ) ∣ Y ) : = E ( g ( X ) ∣ y ) y = Y E(g(X)|Y):= E(g(X)|y)_{y=Y} E(g(X)Y):=E(g(X)y)y=Y 称为 g ( X ) g(X) g(X) 关于 Y Y Y 的条件数学期望
    3. E ( g ( X ) ∣ Y ) E(g(X)|Y) E(g(X)Y) 是关于 Y Y Y 的函数

    也就是说,一个随机变量 X X X g ( X ) g(X) g(X) 关于另一个随机变量 Y Y Y 的条件期望 E ( X ∣ Y ) E(X|Y) E(XY) E ( g ( X ) ∣ Y ) E(g(X)|Y) E(g(X)Y)

    1. 关于条件 Y Y Y 的一个函数
    2. 本身也是一个随机变量,计算时可以先求出 E ( g ( X ) ∣ y ) E(g(X)|y) E(g(X)y),再直接把 y y y 替换为 Y Y Y 以得到 E ( g ( X ) ∣ Y ) E(g(X)|Y) E(g(X)Y)
      在这里插入图片描述

3.3 条件期望的性质

3.3.1 五条性质

  • 假设 X , Y , Z X,Y,Z X,Y,Z 为连续型 r.v. ,概率密度分别为 f X , f Y , f Z f_X,f_Y,f_Z fX,fY,fZ

    1. X ≥ 0 X\geq 0 X0,则 E ( X ∣ Y ) ≥ 0 E(X|Y)\geq 0 E(XY)0
      在这里插入图片描述
    2. ∀ a , b ∈ R \forall a,b \in R a,bR E ( a X + b Y ∣ Z ) = a E ( X ∣ Z ) + b E ( Y ∣ Z ) E(aX+bY|Z) = aE(X|Z)+bE(Y|Z) E(aX+bYZ)=aE(XZ)+bE(YZ)
      在这里插入图片描述
    3. X X X Y Y Y 独立( X ⊥  ⁣ ⁣ ⁣ ⊥ Y X \perp \!\!\! \perp Y XY),则 E ( X ∣ Y ) = E X E(X|Y) = EX E(XY)=EX
      在这里插入图片描述
    4. E ( X g ( Y ) ∣ Y ) = g ( Y ) E ( X ∣ Y ) E(Xg(Y)|Y) = g(Y)E(X|Y) E(Xg(Y)Y)=g(Y)E(XY)
      在这里插入图片描述
    5. E ( E ( X ∣ Y ) ) = E X E\big(E(X|Y)\big) = EX E(E(XY))=EX
      在这里插入图片描述

3.3.2 一条推论

  • E [ E ( X ∣ Y ) g ( Y ) ] = E [ X g ( Y ) ] E\big[E(X|Y)g(Y)\big] = E\big[Xg(Y)\big] E[E(XY)g(Y)]=E[Xg(Y)]
    ∵ g ( Y ) E ( X ∣ Y ) = E ( X g ( Y ) ∣ Y )      ( 性 质 4 ) ∴ E ( E ( X ∣ Y ) g ( Y ) ) = E ( E ( X g ( Y ) ∣ Y ) ) ∵ E ( E ( X ∣ Y ) ) = E X      ( 性 质 5 ) ∴ E ( E ( X ∣ Y ) g ( Y ) ) = E ( E ( X g ( Y ) ∣ Y ) ) = E ( X g ( Y ) ∣ Y ) \begin{aligned} &\because g(Y)E(X|Y) =E(Xg(Y)|Y) \space\space\space\space(性质4) \\ &\therefore E(E(X|Y)g(Y)) = E(E(Xg(Y)|Y)) \\ &\because E\big(E(X|Y)\big) = EX\space\space\space\space(性质5) \\ & \begin{aligned} \therefore E(E(X|Y)g(Y)) &= E(E(Xg(Y)|Y)) \\ &= E(Xg(Y)|Y) \end{aligned} \end{aligned} g(Y)E(XY)=E(Xg(Y)Y)    (4)E(E(XY)g(Y))=E(E(Xg(Y)Y))E(E(XY))=EX    (5)E(E(XY)g(Y))=E(E(Xg(Y)Y))=E(Xg(Y)Y)

3.4 条件期望的本质 —— 投影

3.4.1 投影

  • 随机变量生成的空间:考虑 R → R R \to R RR 的实值函数 g ( ⋅ ) g(·) g(),对于随机变量 Y Y Y,选择不同的 g ( ⋅ ) g(·) g() 与其复合,就能得到不同的新的随机变量 g ( Y ) g(Y) g(Y),所有满足 E g 2 ( Y ) < ∞ Eg^2(Y)<\infin Eg2(Y)< g ( Y ) g(Y) g(Y) 的集合,称为随机变量 Y Y Y 生成的空间,即
    { g ( Y ) ∣ g : R → R 且 E g 2 ( Y ) < ∞ } \{g(Y)\big| g:R\to R 且 Eg^2(Y)<\infin\} {g(Y)g:RREg2(Y)<}
  • 考虑随机变量 X X X Y Y Y 生成的空间的距离,用 E [ X − g ( Y ) ] 2 E[X-g(Y)]^2 E[Xg(Y)]2 表示(省略开方以简化运算),有
    E [ X − g ( Y ) ] 2 = E [ X − E ( X ∣ Y ) + E ( X ∣ Y ) − g ( Y ) ] 2 = E [ X − E ( X ∣ Y ) ] 2 + E [ E ( X ∣ Y ) − g ( Y ) ] 2 + 2 E [ X − E ( X ∣ Y ) ] [ E ( X ∣ Y ) − g ( Y ) ] \begin{aligned} E[X-g(Y)]^2 &= E\big[X-E(X|Y)+E(X|Y)-g(Y)\big]^2 \\ & =E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2 + 2E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] \end{aligned} E[Xg(Y)]2=E[XE(XY)+E(XY)g(Y)]2=E[XE(XY)]2+E[E(XY)g(Y)]2+2E[XE(XY)][E(XY)g(Y)]
    关注其中的交叉项
    E [ X − E ( X ∣ Y ) ] [ E ( X ∣ Y ) − g ( Y ) ] = E [ X E ( X ∣ Y ) − X g ( Y ) − ( E ( X ∣ Y ) ) 2 + E ( X ∣ Y ) g ( Y ) ] = E [ X E ( X ∣ Y ) ] − E [ X g ( Y ) ] − E [ ( E ( X ∣ Y ) ) 2 ] + E [ E ( X ∣ Y ) g ( Y ) ] = E [ X E ( X ∣ Y ) ] − E [ ( E ( X ∣ Y ) ) 2 ] \begin{aligned} E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] &= E\big[XE(X|Y)-Xg(Y)-(E(X|Y))^2+E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[Xg(Y)\big]-E\big[(E(X|Y))^2\big]+E\big[E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[(E(X|Y))^2\big] \end{aligned} E[XE(XY)][E(XY)g(Y)]=E[XE(XY)Xg(Y)(E(XY))2+E(XY)g(Y)]=E[XE(XY)]E[Xg(Y)]E[(E(XY))2]+E[E(XY)g(Y)]=E[XE(XY)]E[(E(XY))2]
    展开剩下的两项,发现他们相等
    E [ X E ( X ∣ Y ) ] = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 2 x g ( y ) f X , Y ( x , y ) d x d y = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 2 x ∫ R x f X ∣ Y ( x ∣ y ) d x f X , Y ( x , y ) d x d y = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 2 x ∫ R x f X ∣ Y ( x ∣ y ) d x f X , Y ( x , y ) d x d y = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 3 x 2 f X ∣ Y ( x ∣ y ) f X , Y ( x , y ) d x d x d y E [ ( E ( X ∣ Y ) ) 2 ] = ∫ R g ( y ) 2 f Y ( y ) d y = ∫ R ( E [ X ∣ Y = y ] ) 2 f Y ( y ) d y = ∫ R ( ∫ R x f X ∣ Y ( x ∣ y ) ) 2 f Y ( y ) d y = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 3 x 2 ( f X ∣ Y ( x ∣ y ) ) 2 f Y ( y ) d x d x d y = ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫  ⁣ ⁣ ⁣ ⁣ ⁣ ∫ R 3 x 2 f X ∣ Y ( x ∣ y ) f X , Y ( x , y ) d x d x d y   ∴ E [ X E ( X ∣ Y ) ] = E [ ( E ( X ∣ Y ) ) 2 ] \begin{aligned} &\begin{aligned} E\big[XE(X|Y)\big] &= \int \!\!\!\!\! \int_{R^2} xg(y)f_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\begin{aligned} E\big[(E(X|Y))^2\big] &= \int_R g(y)^2f_Y(y)dy \\ &= \int_R (E[X|Y=y])^2f_Y(y)dy \\ &= \int_R (\int_R xf_{X|Y}(x|y))^2f_Y(y)dy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 (f_{X|Y}(x|y))^2f_Y(y)dxdxdy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\space\\ &\therefore E\big[XE(X|Y)\big] = E\big[(E(X|Y))^2\big] \end{aligned} E[XE(XY)]=R2xg(y)fX,Y(x,y)dxdy=R2xRxfXY(xy)dxfX,Y(x,y)dxdy=R2xRxfXY(xy)dxfX,Y(x,y)dxdy=R3x2fXY(xy)fX,Y(x,y)dxdxdyE[(E(XY))2]=Rg(y)2fY(y)dy=R(E[XY=y])2fY(y)dy=R(RxfXY(xy))2fY(y)dy=R3x2(fXY(xy))2fY(y)dxdxdy=R3x2fXY(xy)fX,Y(x,y)dxdxdy E[XE(XY)]=E[(E(XY))2]
    因此交叉项为0,随机变量 X X X Y Y Y 生成的空间的距离可以表示为
    E [ X − g ( Y ) ] 2 = E [ X − E ( X ∣ Y ) ] 2 + E [ E ( X ∣ Y ) − g ( Y ) ] 2 E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2 E[Xg(Y)]2=E[XE(XY)]2+E[E(XY)g(Y)]2
  • 考虑这个距离何时最小。我们知道 E ( X ∣ Y ) E(X|Y) E(XY) 是关于 Y Y Y 的函数,而 g ( ⋅ ) g(·) g() 是取遍的,因此不妨 g ( Y ) = E ( X ∣ Y ) g(Y)=E(X|Y) g(Y)=E(XY),此时得到随机变量 X X X Y Y Y 生成的空间的最短距离为
    inf ⁡ g E [ X − g ( Y ) ] 2 = E [ X − E ( X ∣ Y ) ] 2 \inf_g E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2 ginfE[Xg(Y)]2=E[XE(XY)]2 假设随机变量 X X X 是空间中的一个向量(向量上每个点代表一个取值), Y Y Y 生成的空间是由一组随机变量 g ( Y ) g(Y) g(Y) 组成的二维平面,如下图所示
    在这里插入图片描述
    显然,最短距离是 X X X 到 “ X X X Y Y Y 生成的空间上的投影” 的距离,也就是说这时平面上满足要求的 g ( Y ) g(Y) g(Y) 就是投影,而我们前面选出了 g ( Y ) = E ( X ∣ Y ) g(Y)=E(X|Y) g(Y)=E(XY),所以条件期望 E ( X ∣ Y ) E(X|Y) E(XY) 的本质就是: X X X Y Y Y 生成空间的投影
  • 利用这个本质,再来看上面的性质: X ⊥  ⁣ ⁣ ⁣ ⊥ Y ⇒ E ( X ∣ Y ) = E X X \perp \!\!\! \perp Y \Rightarrow E(X|Y) = EX XYE(XY)=EX X X X Y Y Y 独立意味着 X X X 在空间中的向量和 Y Y Y 生成的平面垂直,所以投影是一个点,它是一个数,记作 a,有
    E ( X ∣ Y ) = a ∴ E [ E ( X ∣ Y ) ] = E a ∴ E X = a ∴ E ( X ∣ Y ) = E X \begin{aligned} & E(X|Y) = a \\ &\therefore E[E(X|Y)] = Ea \\ &\therefore EX = a\\ &\therefore E(X|Y) = EX \end{aligned} E(XY)=aE[E(XY)]=EaEX=aE(XY)=EX

3.4.2 直观推论

  • 利用条件期望的投影本质,可以直观地给出一些等式关系,具体证明省略
    1. 空间上元素往自己空间上投影,还是自己
      E ( g ( Y ) ∣ Y ) = g ( Y ) E(g(Y)|Y)=g(Y) E(g(Y)Y)=g(Y)
    2. 连续向多个空间投影,等价于直接向最小的空间投影
      E [ E ( X ∣ Z ) ∣ Y , Z ] = E ( X ∣ Z ) E [ E ( X ∣ Y , Z ) ∣ Z ] = E ( X ∣ Z ) \begin{aligned} &E \big[E(X|Z)|Y,Z \big] = E(X|Z) \\ &E \big[E(X|Y,Z)|Z \big] = E(X|Z) \\ \end{aligned} E[E(XZ)Y,Z]=E(XZ)E[E(XY,Z)Z]=E(XZ)

3.4.3 Example

在这里插入图片描述

3.5 深入理解条件数学期望

3.5.1 关于 r.v. 的条件数学期望的正统定义

  • 3.1 节中,我们给出的 “关于 r.v. 的条件数学期望的定义” 是:令 g ( ⋅ ) g(·) g() R → R R\to R RR 的实值函数,在 Y = y Y=y Y=y 的条件下, g ( X ) g(X) g(X) 的条件数学期望为:
    E ( g ( X ) ∣ y ) = E ( g ( X ) ∣ Y = y ) = ∫ R g ( x ) d F X ∣ Y ( x ∣ y ) \begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned} E(g(X)y)=E(g(X)Y=y)=Rg(x)dFXY(xy) 这种定义通常是工科教材里的定义,它能告诉我们数学期望如何计算,但是并没有触及本质。这种定义方法把 Y = y Y=y Y=y 看做一个事件,但事实上,对于连续型随机变量,不能把 Y = y Y=y Y=y 当作事件处理。3.1 节中已经说明过这个问题

  • 为了深入理解其中原由,下面给出数学专业中对于 “关于 r.v. 的条件数学期望的定义”:给定概率空间 ( Ω , F , P ) (\Omega,\mathscr{F},P) (Ω,F,P),对于 r.v.s X,Y,Z,若

    1. Z Z Z Y Y Y 的函数
    2. ∀ A ∈ B ( R ) \forall A\in \mathscr{B}(\mathbb{R}) AB(R)(就是实数集上任意集合 A A A),有 E X I A ( Y ) = E Z I A ( Y ) EXI_A(Y) = EZI_A(Y) EXIA(Y)=EZIA(Y)

    则称 Z Z Z X X X 关于 Y Y Y 的条件数学期望,即 Z = E ( X ∣ Y ) Z = E(X|Y) Z=E(XY)

  • 注: I A ( Y ) ( w ) = I Y − 1 ( A ) ( w ) I_A(Y)(w) = I_{Y^{-1}(A)}(w) IA(Y)(w)=IY1(A)(w) 是一个示性随机变量,即
    I A ( Y ) ( w ) = I Y − 1 ( A ) ( w ) = { 1 w ∈ A 0 w ∉ A I_A(Y)(w) = I_{Y^{-1}(A)}(w) = \left\{ \begin{aligned} &1 && w \in A \\ &0 & &w \notin A \end{aligned} \right. IA(Y)(w)=IY1(A)(w)={10wAw/A 其中 Y − 1 ( A ) = { w : Y ( w ) ∈ A } Y^{-1}(A) = \{w:Y(w)\in A\} Y1(A)={w:Y(w)A} 称为 A在Y下的原像,指被随机变量 Y Y Y 映射到实数集 A A A 中的事件组成的集合

3.5.2 再看离散和连续随机变量的条件期望

  1. Y Y Y 为离散型 r.v.,取值为 { y n : n = 1 , 2 , 3... } \{y_n: n=1,2,3...\} {yn:n=1,2,3...},则

    1. X X X 关于 r.v. Y Y Y 的条件期望为
      E ( X ∣ Y ) = ∑ n = 1 ∞ E [ X ∣ Y − 1 ( { y n } ) ] I { y n } ( Y ) E(X|Y) = \sum_{n=1}^\infin E\big[X|Y^{-1}(\{y_n\})\big]I_{\{y_n\}}(Y) E(XY)=n=1E[XY1({yn})]I{yn}(Y) 这里 Y − 1 ( { y n } ) Y^{-1}(\{y_n\}) Y1({yn}) 指使得 Y ( w ) = y n Y(w) = y_n Y(w)=yn 的全体事件 w w w 的集合; I { y n } ( Y ) I_{\{y_n\}}(Y) I{yn}(Y) Y = y n Y=y_n Y=yn 时其值为 1 1 1
    2. 证明:显然这个是关于 Y Y Y 的函数,只需证 E X I A ( Y ) = E E ( X ∣ Y ) I A ( Y ) EXI_A(Y) = EE(X|Y)I_A(Y) EXIA(Y)=EE(XY)IA(Y) 不妨取一个单点集作为 A A A,即 A = y m A={y_m} A=ym,有
      在这里插入图片描述
    3. 那么,对于任意 Y = y n Y=y_n Y=yn,有 I { y n } ( Y ) = 1 I_{\{y_n\}}(Y) = 1 I{yn}(Y)=1 I { y i ≠ n } ( Y ) = 0 I_{\{y_{i\neq n}\}}(Y) = 0 I{yi=n}(Y)=0,此时
      E ( X ∣ y n ) = E ( X ∣ Y ) Y = y n = E [ X ∣ Y − 1 ( { y n } ) ] : = E [ X ∣ Y = y n ] E(X|y_n) = E(X|Y)_{Y=y_n} = E\big[X|Y^{-1}(\{y_n\})\big] := E\big[X|Y=y_n\big] E(Xyn)=E(XY)Y=yn=E[XY1({yn})]:=E[XY=yn] 可见,离散情况下 Y = y n Y=y_n Y=yn 代表的是事件集合 Y − 1 ( { y n } ) Y^{-1}(\{y_n\}) Y1({yn}),它确实是一个事件
  2. ( X , Y ) (X,Y) (X,Y) 为二维连续型 r.v.,联合概率密度为 f ( x , y ) f(x,y) f(x,y),则

    1. X X X 关于 r.v. Y Y Y 的条件期望为
      E ( X ∣ Y ) Y = y = g ( y ) = ∫ R x f X ∣ Y ( x ∣ y ) d x E(X|Y)_{Y=y} = g(y) = \int_{\mathbb{R}}xf_{X|Y}(x|y)dx E(XY)Y=y=g(y)=RxfXY(xy)dx
    2. 证明
      在这里插入图片描述
    3. 可见,有
      E ( X ∣ y ) = E ( X ∣ Y ) Y = y = g ( y ) : = E ( X ∣ Y = y ) E(X|y) = E(X|Y)_{Y=y}= g(y) := E(X|Y=y) E(Xy)=E(XY)Y=y=g(y):=E(XY=y) 这里是利用期望的本质定义,直接积分算出了 g ( Y ) = E ( X ∣ Y ) g(Y)=E(X|Y) g(Y)=E(XY),然后再把 Y Y Y 替换为 y y y,因此 Y = y Y=y Y=y 只是一个记号,并非事件
  • 27
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云端FFF

所有博文免费阅读,求打赏鼓励~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值