连续型随机变量的技术细节
连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theory
)的相关内容来扩展概率论。
花书只介绍一些测度论用来解决的问题。
技术细节1
测度论的一个重要贡献:提供一些点集的特征,使在计算概率时不会遇到悖论。
连续型向量值随机变量
x
\bf{x}
x 落在某个集合
S
\Bbb{S}
S 中的概率是通过
p
(
x
)
p(\boldsymbol{x})
p(x) 对集合
S
\Bbb{S}
S 积分得到。
但对集合
S
\Bbb{S}
S 的一些选择可能会引起悖论。
例如
:构造两个集合
S
1
\Bbb{S}_1
S1 和
S
2
\Bbb{S}_2
S2
使得
p
(
x
∈
S
1
)
+
p
(
x
∈
S
2
)
>
1
p(\boldsymbol{x}\in\Bbb{S}_1)+p(\boldsymbol{x}\in\Bbb{S}_2)\gt1
p(x∈S1)+p(x∈S2)>1 ,
并且
S
1
∩
S
2
=
∅
\Bbb{S}_1 \cap\Bbb{S}_2=\emptyset
S1∩S2=∅ (这是可能的)
这些集合通常是大量使用了实数的无限精度来构造的,
例如
:通过构造分形形状的集合或是通过有理数相关集合的变换定义的集合
Banach-Tarski 定理给出了这类集合的一个有趣的例子
花书中只对相对简单的集合进行积分,测度论这方便的内容不需要考虑。
测度论术语–零测度
测度论更多是用来描述那些适用于
R
n
\Bbb{R}^n
Rn 上的大多数点,却不适用与一些边界的定理。
测度论提供了一种严格的方式来描述那些非常微小的点集,这种集合称为“零测度(measure zero
)”
可以认为零测度集在度量空间中不占有任何体积。
例如
:在
R
2
\Bbb{R}^2
R2 空间中,一条直线的测度为零,而填充的多边形具有正的测度。
类似地,一个单独的点的测度为零。
可数多个零测度集的并仍然是零测度的。
有理数构成的集合的测度为零
测度论术语–几乎出处
另一个有用的测度论中的术语是“几乎处处(almost everywhere
)”。
某个性质如果是几乎处处都成立的,那么它在整个空间中除了一个测度为零的集合以外都是成立的。
因为这些例外只在空间中占有及其微小的量,它们在多数应用中都可以被放心地忽略。
概率论中的一些重要结果对于离散值成立,但对于连续值只能是“几乎处处”成立。
技术细节2
连续型随机变量的另一技术细节涉及处理那种相互之间有确定性函数关系的连续型变量。
假设
有两个随机变量
x
\bf{x}
x 和
y
\bf{y}
y 满足
y
=
g
(
x
)
\boldsymbol{y}=g(\boldsymbol{x})
y=g(x),
其中
g
g
g 是可逆的、连续可微的函数。
可能有人会想
p
y
(
y
)
=
p
x
(
g
−
1
(
y
)
)
p_y(\boldsymbol{y})=p_x(g^{-1}(\boldsymbol{y}))
py(y)=px(g−1(y)) 这是错误的。
例子
:假设有两个标量随机变量
x
\rm{x}
x 和
y
\rm{y}
y,满足
y
=
x
2
\rm{y}=\frac{x}{2}
y=2x 及
x
∼
U
(
0
,
1
)
\rm{x}\sim {\it{U}}(0,1)
x∼U(0,1)。
若使用
p
y
(
y
)
=
p
x
(
2
y
)
p_y(y)=p_x(2y)
py(y)=px(2y),那么
p
y
p_y
py 除了区间
[
0
,
1
2
]
[0,\frac{1}{2}]
[0,21] 以外都为0,并且在这个区间上的值为1。
这意味着
∫
p
y
(
y
)
d
y
=
1
2
\int p_y(y)dy=\frac{1}{2}
∫py(y)dy=21
这违背了概率密度的定义(积分为1)
以上错误在于未考虑引入函数
g
g
g 后造成的空间变形,
x
\boldsymbol{x}
x 落在无穷小的体积为
δ
x
\delta \boldsymbol{x}
δx 的区域的概率为
p
(
x
)
δ
x
p(\boldsymbol{x})\delta \boldsymbol{x}
p(x)δx。
因为
g
g
g 可能会扩展或压缩空间,在
x
\boldsymbol{x}
x 空间内的包围着
x
\boldsymbol{x}
x 的无穷小体积在
x
\boldsymbol{x}
x 空间中可能有不同的体积。
为了看出如果改正这个问题,回到标量值的情况。此时需要保持下面这个性质:
(1)
∣
p
y
(
g
(
x
)
)
d
y
∣
=
∣
p
x
(
x
)
d
x
∣
|p_y(g(x))dy|=|p_x(x)dx|\tag{1}
∣py(g(x))dy∣=∣px(x)dx∣(1)
求解(1)式,得
p
y
(
y
)
=
p
x
(
g
−
1
(
y
)
)
∣
∂
x
∂
y
∣
p_y(y)=p_x(g^{-1}(y))\left|\frac{\partial x}{\partial y}\right|
py(y)=px(g−1(y))∣∣∣∣∂y∂x∣∣∣∣
等价于
p
x
(
x
)
=
p
y
(
g
(
x
)
)
∣
∂
g
(
x
)
∂
x
∣
p_x(x)=p_y(g(x))\left|\frac{\partial g(x)}{\partial x}\right|
px(x)=py(g(x))∣∣∣∣∂x∂g(x)∣∣∣∣
在高维空间中,微分运算扩展为 Jacobian 矩阵(Jacobian marix
)的行列式:
矩阵的每一个元素为
J
i
,
j
=
∂
x
i
∂
y
j
J_{i,j}=\frac{\partial x_i}{\partial y_j}
Ji,j=∂yj∂xi。
因此对实值向量
x
\boldsymbol{x}
x 和
y
\boldsymbol{y}
y
p
x
(
x
)
=
p
y
(
g
(
x
)
)
∣
det
(
∂
g
(
x
)
∂
x
)
∣
p_x(\boldsymbol{x})=p_y(g(\boldsymbol{x})) \left| \det \left( \frac{\partial g(\boldsymbol{x})}{\partial \boldsymbol{x}} \right) \right|
px(x)=py(g(x))∣∣∣∣det(∂x∂g(x))∣∣∣∣