UA MATH563 概率论的数学基础 鞅论初步2 条件期望的应用:推导二元随机变量的相关计算公式
上一讲我们介绍了关于 σ \sigma σ-代数定义的条件期望以及关于随机变量的条件期望,这一讲我们用这些定义推导二元随机变量的条件密度、条件期望等计算公式。
我们先描述一下概率空间,取
Ω
=
R
2
\Omega = \mathbb{R}^2
Ω=R2,它与
B
(
R
2
)
\mathcal{B}(\mathbb{R}^2)
B(R2)构成可测空间,用
P
P
P表示定义在这个可测空间上的一个概率。
(
X
,
Y
)
(X,Y)
(X,Y)是定义在这个可测空间上的随机向量,它的概率密度是
f
(
x
,
y
)
f(x,y)
f(x,y),
P
(
(
X
,
Y
)
∈
A
)
=
∫
χ
A
d
P
=
∬
A
f
(
x
,
y
)
d
x
d
y
,
∀
A
∈
B
(
R
2
)
P((X,Y) \in A)=\int \chi_A dP=\iint_A f(x,y)dxdy,\forall A \in \mathcal{B}(\mathbb{R}^2)
P((X,Y)∈A)=∫χAdP=∬Af(x,y)dxdy,∀A∈B(R2)
我们要回答的第一个问题是 P ( Y ∈ B ∣ X = x ) P(Y \in B|X=x) P(Y∈B∣X=x)如何计算。
考虑
∀
x
∈
R
\forall x \in \mathbb{R}
∀x∈R
P
(
Y
∈
B
∣
X
=
x
)
=
P
(
Y
−
1
(
B
)
∩
X
−
1
(
x
)
)
P
(
X
−
1
(
x
)
)
=
∬
{
x
}
×
B
f
(
x
,
y
)
d
x
d
y
∬
{
x
}
×
R
f
(
x
,
y
)
d
x
d
y
=
∫
B
f
(
x
,
y
)
d
y
∫
R
f
(
x
,
y
)
d
y
≜
∫
B
f
(
y
∣
x
)
d
y
P(Y \in B|X=x) = \frac{P(Y^{-1}(B) \cap X^{-1}(x))}{P(X^{-1}(x))} \\ = \frac{ \iint_{\{x\} \times B }f(x,y)dxdy}{\iint_{ \{x\} \times \mathbb{R} }f(x,y)dxdy}=\frac{\int_B f(x,y)dy}{\int_{\mathbb{R}}f(x,y)dy}\triangleq \int_B f(y|x)dy
P(Y∈B∣X=x)=P(X−1(x))P(Y−1(B)∩X−1(x))=∬{x}×Rf(x,y)dxdy∬{x}×Bf(x,y)dxdy=∫Rf(x,y)dy∫Bf(x,y)dy≜∫Bf(y∣x)dy
其中
∫
R
f
(
x
,
y
)
d
y
\int_{\mathbb{R}}f(x,y)dy
∫Rf(x,y)dy是
X
X
X的边缘密度,记为
f
X
(
x
)
f_X(x)
fX(x),
f
(
y
∣
x
)
f(y|x)
f(y∣x)是
Y
∣
X
=
x
Y|X=x
Y∣X=x的概率密度,称之为
Y
Y
Y关于
X
X
X的条件密度,
f
(
y
∣
x
)
=
f
(
x
,
y
)
f
X
(
x
)
f(y|x) = \frac{f(x,y)}{f_X(x)}
f(y∣x)=fX(x)f(x,y)
表面上看我们仿佛得到了一个条件密度的公式,根据这个公式可以计算条件概率,但是这个公式还不是很严谨,因为
(
X
,
Y
)
∈
R
2
(X,Y) \in \mathbb{R}^2
(X,Y)∈R2,
x
x
x的取值有可能使得
f
X
(
x
)
=
0
f_X(x)=0
fX(x)=0,所以接下来我们要处理一下
f
X
(
x
)
=
0
f_X(x)=0
fX(x)=0的情况。计算
P
(
{
x
:
f
X
(
x
)
=
0
}
)
=
∬
{
x
:
f
X
(
x
)
=
0
}
×
R
f
(
x
,
y
)
d
x
d
y
P(\{x:f_X(x)=0\})=\iint_{\{x:f_X(x)=0\} \times \mathbb{R}}f(x,y)dxdy
P({x:fX(x)=0})=∬{x:fX(x)=0}×Rf(x,y)dxdy
根据Fubini-Tonelli定理,交换积分次序
P
(
{
x
:
f
X
(
x
)
=
0
}
)
=
∬
{
x
:
f
X
(
x
)
=
0
}
×
R
f
(
x
,
y
)
d
y
d
x
=
∫
{
x
:
f
X
(
x
)
=
0
}
f
X
(
x
)
d
x
=
0
P(\{x:f_X(x)=0\})=\iint_{\{x:f_X(x)=0\} \times \mathbb{R}}f(x,y)dydx \\ = \int_{\{x:f_X(x)=0\}}f_X(x)dx=0
P({x:fX(x)=0})=∬{x:fX(x)=0}×Rf(x,y)dydx=∫{x:fX(x)=0}fX(x)dx=0
这说明 { x : f X ( x ) = 0 } \{x:f_X(x)=0\} {x:fX(x)=0}是一个零测集,因此支撑集 s u p p f X ( x ) = { x : f X ( x ) > 0 } supp f_X(x)=\{x:f_X(x)>0\} suppfX(x)={x:fX(x)>0}几乎必然等于 R \mathbb{R} R,在分析时我们总是可以用支撑集代替全集进行计算。
接下来我们讨论第二个问题, E [ g ( Y ) ∣ X ] E[g(Y)|X] E[g(Y)∣X]如何计算,其中 g g g是Borel可测函数。
我们可以基于上面定义的条件密度计算
E
[
g
(
Y
)
∣
X
]
=
∫
R
g
(
y
)
f
(
y
∣
X
)
d
y
E[g(Y)|X]=\int_{\mathbb{R}} g(y)f(y|X)dy
E[g(Y)∣X]=∫Rg(y)f(y∣X)dy
这里就涉及
f
(
y
∣
X
)
f(y|X)
f(y∣X)这个我们没定义过的东西了,所以接下来我们定义一下它。
f
(
y
∣
X
)
=
P
(
Y
−
1
(
y
)
∣
X
)
=
P
(
Y
−
1
(
y
)
∣
σ
(
X
)
)
=
P
(
Y
−
1
(
y
)
∩
σ
(
X
)
)
P
(
σ
(
X
)
)
=
f
(
X
,
y
)
∫
y
f
(
X
,
y
)
d
y
f(y|X)=P(Y^{-1}(y)|X)=P(Y^{-1}(y)|\sigma(X)) \\=\frac{P(Y^{-1}(y)\cap \sigma(X))}{P(\sigma(X))}=\frac{f(X,y)}{\int_{\mathbb{y}}f(X,y)dy}
f(y∣X)=P(Y−1(y)∣X)=P(Y−1(y)∣σ(X))=P(σ(X))P(Y−1(y)∩σ(X))=∫yf(X,y)dyf(X,y)
这个推导中需要注意的是关于 X X X的条件概率就是关于 σ ( X ) \sigma(X) σ(X)的条件概率,这种条件概率依然是随机变量,因此 f ( y ∣ X ) f(y|X) f(y∣X)也是随机变量。