文章目录
五、多维随机变量及其联合分布、边际分布、条件分布
在之前关于随机变量的讨论中,我们仅仅只研究了单一随机变量及其分布情况,但是现实中的问题往往影响的因素有很多而且是相互影响的。例如:人的身高与什么因素相关?可能与每天吃钙物质的量、影响身高基因的数量、基因的表达情况等等。单一影响因素并不能满足日常问题的研究,因此需要引入多维随机变量的概念。通俗的说,多维随机变量就是多个随机变量的结合,从一个推广到多个,在线性代数中我们已经干过这件事,那就是使用向量去表达!具体地说:
若随机变量
X
1
(
ω
)
,
X
2
(
ω
)
,
⋯
,
X
n
(
ω
)
X_{1}(\omega), X_{2}(\omega), \cdots, X_{n}(\omega)
X1(ω),X2(ω),⋯,Xn(ω) 定义在同一个基本空间
Ω
=
{
ω
}
\Omega=\{\omega\}
Ω={ω} 上, 则称
X
(
ω
)
=
(
X
1
(
ω
)
,
X
2
(
ω
)
,
⋯
,
X
n
(
ω
)
)
\boldsymbol{X}(\omega)=\left(X_{1}(\omega), X_{2}(\omega), \cdots, X_{n}(\omega)\right)
X(ω)=(X1(ω),X2(ω),⋯,Xn(ω))
是一个多维随机变量,也称为n维随机向量。
(1.1)n维随机变量的联合分布函数:
一维随机变量的分布函数是一个关于x的函数,而n维随机变量的联合分布函数就是关于n个自变量的函数:
设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
X=\left(X_{1}, X_{2}, \cdots, X_{n}\right)
X=(X1,X2,⋯,Xn) 是
n
n
n 维随机变量, 对任意
n
n
n 个实数
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 所组成的
n
n
n 个事件
X
1
⩽
x
1
,
X
2
⩽
x
2
,
⋯
,
X
n
⩽
x
n
X_{1} \leqslant x_{1},X_{2} \leqslant x_{2} , \cdots, X_{n} \leqslant x_{n}
X1⩽x1,X2⩽x2,⋯,Xn⩽xn 同时发生的概率
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
P
(
X
1
⩽
x
1
,
X
2
⩽
x
2
,
⋯
,
X
n
⩽
x
n
)
F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=P\left(X_{1} \leqslant x_{1}, X_{2} \leqslant x_{2}, \cdots, X_{n} \leqslant x_{n}\right)
F(x1,x2,⋯,xn)=P(X1⩽x1,X2⩽x2,⋯,Xn⩽xn)
称为
n
n
n 维随机变量
X
\boldsymbol{X}
X 的联合分布函数。
(1.2)多维连续随机变量的联合密度函数:
一维随机变量的密度函数是通过分布函数来确定的,也就是分布函数是密度函数的积分,那推广至多维随机变量也是如此:
设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的分布函数为
F
(
x
,
y
)
F(x, y)
F(x,y) 。假如各分量
X
X
X 和
Y
Y
Y 都是一维连续随机变量,并存在定义在平面上的非负函数
p
(
x
,
y
)
p(x, y)
p(x,y),使得
F
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
p
(
x
,
y
)
d
x
d
y
F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^{y} p(x, y) d x d y
F(x,y)=∫−∞x∫−∞yp(x,y)dxdy
则称
(
X
,
Y
)
(X, Y)
(X,Y) 为二维连续随机变量,
p
(
x
,
y
)
p(x, y)
p(x,y) 称为
(
X
,
Y
)
(X, Y)
(X,Y) 的联合概率密度函数, 或简称联合密度。
在
F
(
x
,
y
)
F(x, y)
F(x,y) 偏导数存在的点上有
p
(
x
,
y
)
=
∂
2
∂
x
∂
y
F
(
x
,
y
)
p(x, y)=\frac{\partial^{2}}{\partial x \partial y} F(x, y)
p(x,y)=∂x∂y∂2F(x,y)
(1.3)多维离散随机变量的联合分布列:
如果二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 只取有限个或可列个数对
(
x
i
,
y
j
)
\left(x_{i}, y_{j}\right)
(xi,yj), 则称
(
X
,
Y
)
(X, Y)
(X,Y) 为二维离散随机变量, 称
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
,
i
,
j
=
1
,
2
,
⋯
p_{i j}=P\left(X=x_{i}, Y=y_{j}\right), \quad i, j=1,2, \cdots
pij=P(X=xi,Y=yj),i,j=1,2,⋯
为
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布列, 也可用如下表格形式记联合分布列:
例子:从 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4 中任取一数记为 X X X, 再从 1 , 2 , ⋯ , X 1,2, \cdots, X 1,2,⋯,X 中任取一数记为 Y Y Y。 求 ( X , Y ) (X, Y) (X,Y) 的联合分布列及 P ( X = Y ) P(X=Y) P(X=Y)。
解:
P
(
X
=
Y
)
=
p
11
+
p
22
+
p
33
+
p
44
=
1
4
+
1
8
+
1
12
+
1
16
=
25
48
=
0.5208
P(X=Y)=p_{11}+p_{22}+p_{33}+p_{44}=\frac{1}{4}+\frac{1}{8}+\frac{1}{12}+\frac{1}{16}=\frac{25}{48}=0.5208
P(X=Y)=p11+p22+p33+p44=41+81+121+161=4825=0.5208
# 绘制二维正态分布的联合概率密度曲面图
from scipy.stats import multivariate_normal
from mpl_toolkits.mplot3d import axes3d
x, y = np.mgrid[-5:5:.01, -5:5:.01] # 返回多维结构
pos = np.dstack((x, y))
rv = multivariate_normal([0.5, -0.2], [[2.0, 0.3], [0.3, 0.5]])
z = rv.pdf(pos)
plt.figure('Surface', facecolor='lightgray',figsize=(12,8))
ax = plt.axes(projection='3d')
ax.set_xlabel('X', fontsize=14)
ax.set_ylabel('Y', fontsize=14)
ax.set_zlabel('P (X,Y)', fontsize=14)
ax.plot_surface(x, y, z, rstride=50, cstride=50, cmap='jet')
plt.show()
# 绘制二维正态分布的联合概率密度等高线图
from scipy.stats import multivariate_normal
x, y = np.mgrid[-1:1:.01, -1:1:.01]
pos = np.dstack((x, y))
rv = multivariate_normal([0.5, -0.2], [[2.0, 0.3], [0.3, 0.5]])
z = rv.pdf(pos)
fig = plt.figure(figsize=(8,6))
ax2 = fig.add_subplot(111)
ax2.set_xlabel('X', fontsize=14)
ax2.set_ylabel('Y', fontsize=14)
ax2.contourf(x, y, z, rstride=50, cstride=50, cmap='jet')
plt.show()
(2.1)边际分布函数:
多维随机变量的联合密度函数、联合分布列或者联合分布函数蕴含了这个多维随机向量的所有信息,这些信息主要包括:
- 每个分量的分布 (每个分量的所有信息), 即边际分布。
- 两个分量之间的关联程度, 用协方差和相关系数来描述。 (后面介绍)
- 给定一个分量时,另一个分量的分布, 即条件分布。
多维随机向量中,每个元素即单一随机变量都可能受到这组向量其他随机变量的影响,这种影响可以通过协方差来反映。所谓的边际分布,就是指多维随机向量中的其中一个随机变量 X X X排除其他随机变量影响的分布,即 X X X自身的分布。具体来说就是:
如果在二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 中令
y
→
∞
y \rightarrow \infty
y→∞, 由于
{
Y
<
∞
}
\{Y<\infty\}
{Y<∞} 为必然事件, 故可得
lim
y
→
∞
F
(
x
,
y
)
=
P
(
X
⩽
x
,
Y
<
∞
)
=
P
(
X
⩽
x
)
,
\lim _{y \rightarrow \infty} F(x, y)=P(X \leqslant x, Y<\infty)=P(X \leqslant x),
y→∞limF(x,y)=P(X⩽x,Y<∞)=P(X⩽x),
这是由
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 求得的
X
X
X 的分布函数, 被称为
X
X
X 的边际分布, 记为
F
X
(
x
)
=
F
(
x
,
∞
)
F_{X}(x)=F(x, \infty)
FX(x)=F(x,∞)
类似地, 在
F
(
x
,
y
)
F(x, y)
F(x,y) 中令
x
→
∞
x \rightarrow \infty
x→∞, 可得
Y
Y
Y 的边际分布
F
Y
(
y
)
=
F
(
∞
,
y
)
F_{Y}(y)=F(\infty, y)
FY(y)=F(∞,y)
例子:设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布函数为
F
(
x
,
y
)
=
{
1
−
e
−
x
−
e
−
y
+
e
−
x
−
y
−
λ
x
y
,
x
>
0
,
y
>
0.
0
,
其他.
F(x, y)= \begin{cases}1-\mathrm{e}^{-x}-\mathrm{e}^{-y}+\mathrm{e}^{-x-y-\lambda x y}, & x>0, y>0 . \\ 0, & \text { 其他. }\end{cases}
F(x,y)={1−e−x−e−y+e−x−y−λxy,0,x>0,y>0. 其他.
这个分布被称为二维指数分布,其中参数
λ
>
0
\lambda>0
λ>0。
解:
F
X
(
x
)
=
F
(
x
,
∞
)
=
{
1
−
e
−
x
,
x
>
0
,
0
,
x
⩽
0.
F
Y
(
y
)
=
F
(
∞
,
y
)
=
{
1
−
e
−
y
,
y
>
0
,
0
,
y
⩽
0.
\begin{aligned} &F_{X}(x)=F(x, \infty)= \begin{cases}1-\mathrm{e}^{-x}, & x>0, \\ 0, & x \leqslant 0 .\end{cases} \\ &F_{Y}(y)=F(\infty, y)= \begin{cases}1-\mathrm{e}^{-y}, & y>0, \\ 0, & y \leqslant 0 .\end{cases} \end{aligned}
FX(x)=F(x,∞)={1−e−x,0,x>0,x⩽0.FY(y)=F(∞,y)={1−e−y,0,y>0,y⩽0.
它们都是一维指数分布。不同的
λ
>
0
\lambda>0
λ>0 对应不同的二维指数分布, 但它们的两个边际分布与参数
λ
>
0
\lambda>0
λ>0 无关。 这说明:二维联合分布不仅含有每个分量的概率分布, 而且还含有两个变量
X
X
X 与
Y
Y
Y 间关系的信息。
(2.2)边际密度函数:
如果二维连续随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
p(x, y)
p(x,y), 因为
F
X
(
x
)
=
F
(
x
,
∞
)
=
∫
−
∞
x
(
∫
−
∞
∞
p
(
u
,
v
)
d
v
)
d
u
=
∫
−
∞
x
p
X
(
u
)
d
u
F
Y
(
y
)
=
F
(
∞
,
y
)
=
∫
−
∞
y
(
∫
−
∞
∞
p
(
u
,
v
)
d
u
)
d
v
=
∫
−
∞
y
p
Y
(
v
)
d
v
\begin{aligned} &F_{X}(x)=F(x, \infty)=\int_{-\infty}^{x}\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} v\right) \mathrm{d} u=\int_{-\infty}^{x} p_{X}(u) \mathrm{d} u \\ &F_{Y}(y)=F(\infty, y)=\int_{-\infty}^{y}\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} u\right) \mathrm{d} v=\int_{-\infty}^{y} p_{Y}(v) \mathrm{d} v \end{aligned}
FX(x)=F(x,∞)=∫−∞x(∫−∞∞p(u,v)dv)du=∫−∞xpX(u)duFY(y)=F(∞,y)=∫−∞y(∫−∞∞p(u,v)du)dv=∫−∞ypY(v)dv
其中
p
X
(
x
)
p_{X}(x)
pX(x) 和
p
Y
(
y
)
p_{Y}(y)
pY(y) 分别为
p
X
(
x
)
=
∫
−
∞
∞
p
(
x
,
y
)
d
y
p
Y
(
y
)
=
∫
−
∞
∞
p
(
x
,
y
)
d
x
\begin{aligned} &p_{X}(x)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} y \\ &p_{Y}(y)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} x \end{aligned}
pX(x)=∫−∞∞p(x,y)dypY(y)=∫−∞∞p(x,y)dx
【例子】设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
{
1
,
0
<
x
<
1
,
∣
y
∣
<
x
,
0
,
其他.
p(x, y)= \begin{cases}1, & 0<x<1,|y|<x, \\ 0, & \text { 其他. }\end{cases}
p(x,y)={1,0,0<x<1,∣y∣<x, 其他.
试求: 边际密度函数
p
X
(
x
)
p_{X}(x)
pX(x) 和
p
Y
(
y
)
p_{Y}(y)
pY(y)。
p
x
(
x
)
=
{
2
x
,
0
<
x
<
1
,
0
,
其他.
p_{x}(x)= \begin{cases}2 x, & 0<x<1, \\ 0, & \text { 其他. }\end{cases}
px(x)={2x,0,0<x<1, 其他.
与
p
Y
(
y
)
=
{
1
+
y
,
−
1
<
y
<
0
,
1
−
y
,
0
<
y
<
1
,
0
,
其他.
p_{Y}(y)= \begin{cases}1+y, & -1<y<0, \\ 1-y, & 0<y<1, \\ 0, & \text { 其他. }\end{cases}
pY(y)=⎩⎪⎨⎪⎧1+y,1−y,0,−1<y<0,0<y<1, 其他.
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1,And(x>0,x<1,y<x,y>-x)),(0,True))
integrate(p_xy, (x, -oo, oo)) ## 由于|y|<x,0<x<1时,因此y肯定在(-1,1)
-Max(0, -y, y) + Max(1, -y, y)
(2.3)边际分布列
在二维离散随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布列
{
P
(
X
=
x
i
,
Y
=
y
j
)
}
\left\{P\left(X=x_{i}, Y=y_{j}\right)\right\}
{P(X=xi,Y=yj)} 中, 对
j
j
j 求和所得的分布列
∑
j
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
⋯
\sum_{j=1}^{\infty} P\left(X=x_{i}, Y=y_{j}\right)=P\left(X=x_{i}\right), \quad i=1,2, \cdots
j=1∑∞P(X=xi,Y=yj)=P(X=xi),i=1,2,⋯
被称为
X
X
X 的边际分布列。 类似地, 对
i
i
i 求和所得的分布列
∑
i
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
Y
=
y
j
)
,
j
=
1
,
2
,
⋯
\sum_{i=1}^{\infty} P\left(X=x_{i}, Y=y_{j}\right)=P\left(Y=y_{j}\right), \quad j=1,2, \cdots
i=1∑∞P(X=xi,Y=yj)=P(Y=yj),j=1,2,⋯
被称为
Y
Y
Y 的边际分布列。
例子:设二维随机变量 ( X , Y ) (X, Y) (X,Y) 有如下的联合分布列
求
X
X
X,
Y
Y
Y的边际分布列。
解:
(3)条件分布(非重点,了解)
在概率的计算中,我们知道概率可以分为无条件概率和条件概率,而概率又是对随机事件发生可能性大小的描述;后来,我们使用随机变量描述随机事件,使用分布函数/密度函数/分布列计算随机事件发生的概率,因此条件概率理所当然的有条件分布/条件密度函数/条件分布列,那如何计算条件分布呢?我们可以参照条件概率的计算定义条件分布函数:
- 多维离散随机变量的条件分布列:
对一切使
P
(
Y
=
y
j
)
=
p
.
j
=
∑
i
=
1
∞
p
i
j
>
0
P\left(Y=y_{j}\right)=p_{. j}=\sum_{i=1}^{\infty} p_{i j}>0
P(Y=yj)=p.j=∑i=1∞pij>0 的
y
j
y_{j}
yj, 称
p
i
∣
j
=
P
(
X
=
x
i
∣
Y
=
y
j
)
=
P
(
X
=
x
i
,
Y
=
y
j
)
P
(
Y
=
y
j
)
=
p
i
j
p
⋅
j
,
i
=
1
,
2
,
⋯
p_{i \mid j}=P\left(X=x_{i} \mid Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}=\frac{p_{i j}}{p_{\cdot j}}, \quad i=1,2, \cdots
pi∣j=P(X=xi∣Y=yj)=P(Y=yj)P(X=xi,Y=yj)=p⋅jpij,i=1,2,⋯
为给定
Y
=
y
j
Y=y_{j}
Y=yj 条件下
X
X
X 的条件分布列。
同理, 对一切使
P
(
X
=
x
i
)
=
p
i
=
∑
j
=
1
∞
p
i
j
>
0
P\left(X=x_{i}\right)=p_{i}=\sum_{j=1}^{\infty} p_{i j}>0
P(X=xi)=pi=∑j=1∞pij>0 的
x
i
x_{i}
xi, 称
p
j
i
i
=
P
(
Y
=
y
j
∣
X
=
x
i
)
=
P
(
X
=
x
i
,
Y
=
y
j
)
P
(
X
=
x
i
)
=
p
i
j
p
i
.
,
j
=
1
,
2
,
⋯
p_{j i i}=P\left(Y=y_{j} \mid X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}=\frac{p_{i j}}{p_{i} .}, \quad j=1,2, \cdots
pjii=P(Y=yj∣X=xi)=P(X=xi)P(X=xi,Y=yj)=pi.pij,j=1,2,⋯
为给定
X
=
x
i
X=x_{i}
X=xi 条件下
Y
Y
Y 的条件分布列。
【例子】设在一段时间内进人某一商店的顾客人数 X X X 服从泊松分布 P ( λ ) P(\lambda) P(λ), 每个顾客购买某种物品的概率为 p p p, 并且各个顾客是否购买该种物品相互独立, 求进入商店的顾客购买这种物品的人数 Y Y Y 的分布列。
解:
由题意知:
P
(
X
=
m
)
=
λ
m
m
!
e
−
λ
,
m
=
0
,
1
,
2
,
⋯
P(X=m)=\frac{\lambda^{m}}{m !} \mathrm{e}^{-\lambda}, \quad m=0,1,2, \cdots
P(X=m)=m!λme−λ,m=0,1,2,⋯
在进人商店的人数
X
=
m
X=m
X=m 的条件下, 购买某种物品的人数
Y
Y
Y 的条件分布为二项分布
b
(
m
,
p
)
b(m, p)
b(m,p), 即
P
(
Y
=
k
∣
X
=
m
)
=
(
m
k
)
p
k
(
1
−
p
)
m
−
k
,
k
=
0
,
1
,
2
,
⋯
,
m
.
P(Y=k \mid X=m)=\left(\begin{array}{l} m \\ k \end{array}\right) p^{k}(1-p)^{m-k}, \quad k=0,1,2, \cdots, m .
P(Y=k∣X=m)=(mk)pk(1−p)m−k,k=0,1,2,⋯,m.
由全概率公式有
P
(
Y
=
k
)
=
∑
m
=
k
∞
P
(
X
=
m
)
P
(
Y
=
k
∣
X
=
m
)
=
∑
m
=
k
∞
λ
m
m
!
e
−
λ
⋅
m
!
k
!
(
m
−
k
)
!
p
k
(
1
−
p
)
m
−
k
\begin{aligned} P(Y=k) &=\sum_{m=k}^{\infty} P(X=m) P(Y=k \mid X=m) \\ &=\sum_{m=k}^{\infty} \frac{\lambda^{m}}{m !} \mathrm{e}^{-\lambda} \cdot \frac{m !}{k !(m-k) !} p^{k}(1-p)^{m-k} \end{aligned}
P(Y=k)=m=k∑∞P(X=m)P(Y=k∣X=m)=m=k∑∞m!λme−λ⋅k!(m−k)!m!pk(1−p)m−k
具体的计算化简,我们交给Sympy进行:
#求边际密度函数 p_{X}(x)
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1,And(x>0,x<1,y<x,y>-x)),(0,True))
integrate(p_xy, (y, -oo, oo)) ## 由于0<x<1时候,那么x>-x,即2x
# 求际密度函数 p_{Y}(y)
from sympy import *
from sympy.abc import lamda,m,p,k
x = symbols('x')
y = symbols('y')
f_p = lamda**m/factorial(m)*E**(-lamda)*factorial(m)/(factorial(k)*factorial(m-k))*p**k*(1-p)**(m-k)
summation(f_p, (m, k, +oo))
- 多维连续随机变量的条件密度函数:
对一切使
p
y
(
y
)
>
0
p_{y}(y)>0
py(y)>0 的
y
y
y, 给定
Y
=
y
Y=y
Y=y 条件下
X
X
X 的条件密度函数分别为
p
(
x
∣
y
)
=
p
(
x
,
y
)
p
Y
(
y
)
.
\begin{aligned} p(x \mid y)=\frac{p(x, y)}{p_{Y}(y)} . \end{aligned}
p(x∣y)=pY(y)p(x,y).
(3.1)连续场合的全概率公式与贝叶斯公式(拓展)
- 全概率公式:
p Y ( y ) = ∫ − ∞ ∞ p X ( x ) p ( y ∣ x ) d x p χ ( x ) = ∫ − ∞ ∞ p Y ( y ) p ( x ∣ y ) d y . \begin{aligned} &p_{Y}(y)=\int_{-\infty}^{\infty} p_{X}(x) p(y \mid x) \mathrm{d} x \\ &p_{\chi}(x)=\int_{-\infty}^{\infty} p_{Y}(y) p(x \mid y) \mathrm{d} y . \end{aligned} pY(y)=∫−∞∞pX(x)p(y∣x)dxpχ(x)=∫−∞∞pY(y)p(x∣y)dy. - 贝叶斯公式:
p ( x ∣ y ) = p X ( x ) p ( y ∣ x ) ∫ − ∞ ∞ p X ( x ) p ( y ∣ x ) d x , p ( y ∣ x ) = p Y ( y ) p ( x ∣ y ) ∫ − ∞ ∞ p Y ( y ) p ( x ∣ y ) d y . \begin{aligned} &p(x \mid y)=\frac{p_{X}(x) p(y \mid x)}{\int_{-\infty}^{\infty} p_{X}(x) p(y \mid x) \mathrm{d} x},\\ &p(y \mid x)=\frac{p_{Y}(y) p(x \mid y)}{\int_{-\infty}^{\infty} p_{Y}(y) p(x \mid y) \mathrm{d} y} . \end{aligned} p(x∣y)=∫−∞∞pX(x)p(y∣x)dxpX(x)p(y∣x),p(y∣x)=∫−∞∞pY(y)p(x∣y)dypY(y)p(x∣y).
六、多维随机变量的数字特征:期望向量、协方差与协方差矩阵、相关系数与相关系数矩阵、条件期望
(1)期望向量:
期望向量是期望在多维随机变量的推广,具体来说:
记
n
n
n 维随机向量为
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
′
\boldsymbol{X}=\left(X_{1}, X_{2}, \cdots, X_{n}\right)^{\prime}
X=(X1,X2,⋯,Xn)′, 若其每个分量的数学期望都存在, 则称
E
(
X
)
=
(
E
(
X
1
)
,
E
(
X
2
)
,
⋯
,
E
(
X
n
)
)
′
E(\boldsymbol{X})=\left(E\left(X_{1}\right), E\left(X_{2}\right), \cdots, E\left(X_{n}\right)\right)^{\prime}
E(X)=(E(X1),E(X2),⋯,E(Xn))′
为
n
n
n 维随机向量
X
\boldsymbol{X}
X 的数学期望向量(一般为列向量), 简称为
X
\boldsymbol{X}
X 的数学期望。至此我们可以看出,
n
n
n 维随机向量的数学期望是各分量的数学期望组成的向量。
(2)协方差与协方差矩阵:
(2.1)协方差:
在多维随机变量中,我们往往需要衡量两个随机变量之间的相互关联的程度,衡量的指标就是协方差。在一维随机变量中,我们使用方差衡量随机变量X自身与自身的变化情况,我们的定义方式是:
V
a
r
(
X
)
=
E
[
(
X
−
E
(
X
)
)
2
]
=
E
[
(
X
−
E
(
X
)
)
(
X
−
E
(
X
)
)
]
Var(X) = E[(X-E(X))^2] = E[(X - E(X))(X - E(X))]
Var(X)=E[(X−E(X))2]=E[(X−E(X))(X−E(X))]。那么理所当然的,衡量随机变量X与随机变量Y之间的关联程度就是:
Cov
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))]
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
仔细观察上述定义式,可知:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。即:
- 当 Cov ( X , Y ) > 0 \operatorname{Cov}(X, Y)>0 Cov(X,Y)>0 时, 称 X X X 与 Y Y Y 正相关, 这时两个偏差 ( X − E ( X ) ) (X-E(X)) (X−E(X)) 与 ( Y − E ( Y ) ) (Y-E(Y)) (Y−E(Y)) 有同时增加或同时减少的倾向。 由于 E ( X ) E(X) E(X) 与 E ( Y ) E(Y) E(Y) 都是常数, 故等价于 X X X 与 Y Y Y 有同时增加或同时减少的倾向, 这就是正相关的含义。
- 当 Cov ( X , Y ) < 0 \operatorname{Cov}(X, Y)<0 Cov(X,Y)<0 时, 称 X X X 与 Y Y Y 负相关, 这时有 X X X 增加而 Y Y Y 减少的倾向, 或有 Y Y Y 增加而 X X X 减少的倾向, 这就是负相关的含义。
- 当 Cov ( X , Y ) = 0 \operatorname{Cov}(X, Y)=0 Cov(X,Y)=0 时,称 X X X 与 Y Y Y 不相关。 这时可能由两类情况导致:一类是 X X X 与 Y Y Y 的取值毫无关联, 另一类是 X X X 与 Y Y Y 间存有某种非线性关系。
下面,给出协方差的性质:(与方差对比)
- Cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) \operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y) Cov(X,Y)=E(XY)−E(X)E(Y)
- 若随机变量 X X X 与 Y Y Y 相互独立, 则 Cov ( X , Y ) = 0 \operatorname{Cov}(X, Y)=0 Cov(X,Y)=0, 反之不成立。
- (最重要)对任意二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y), 有
Var ( X ± Y ) = Var ( X ) + Var ( Y ) ± 2 Cov ( X , Y ) \operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \pm 2 \operatorname{Cov}(X, Y) Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
这个性质表明: 在 X X X 与 Y Y Y 相关的场合,和的方差不等于方差的和。 X X X 与 Y Y Y 的正相关会增加和的方差,负相关会减少和的方差,而在 X X X 与 Y Y Y 不相关的场合,和的方差等于方差的和,即:若 X X X 与 Y Y Y 不相关, 则 Var ( X ± Y ) = Var ( X ) + Var ( Y ) \operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) Var(X±Y)=Var(X)+Var(Y)。 - 协方差
Cov
(
X
,
Y
)
\operatorname{Cov}(X, Y)
Cov(X,Y) 的计算与
X
,
Y
X, Y
X,Y 的次序无关, 即
Cov ( X , Y ) = Cov ( Y , X ) . \operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X) . Cov(X,Y)=Cov(Y,X). - 任意随机变量
X
X
X 与常数
a
a
a 的协方差为零,即
Cov ( X , a ) = 0 \operatorname{Cov}(X, a)=0 Cov(X,a)=0 - 对任意常数
a
,
b
a, b
a,b, 有
Cov ( a X , b Y ) = a b Cov ( X , Y ) . \operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y) . Cov(aX,bY)=abCov(X,Y). - 设
X
,
Y
,
Z
X, Y, Z
X,Y,Z 是任意三个随机变量,则
Cov ( X + Y , Z ) = Cov ( X , Z ) + Cov ( Y , Z ) \operatorname{Cov}(X+Y, Z)=\operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
【例子】设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
{
3
x
,
0
<
y
<
x
<
1
,
0
,
其他.
p(x, y)= \begin{cases}3 x, & 0<y<x<1, \\ 0, & \text { 其他. }\end{cases}
p(x,y)={3x,0,0<y<x<1, 其他.
试求
Cov
(
X
,
Y
)
\operatorname{Cov}(X, Y)
Cov(X,Y)。
# 求协方差
from sympy import *
from sympy.abc import lamda,m,p,k
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((3*x,And(y>0,y<x,x<1)),(0,True))
E_xy = integrate(x*y*p_xy, (x, -oo, oo),(y,-oo,oo))
E_x = integrate(x*p_xy, (x, -oo, oo),(y,-oo,oo))
E_y = integrate(y*p_xy, (x, -oo, oo),(y,-oo,oo))
E_xy - E_x*E_y
3/160
【例子】设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
{
1
3
(
x
+
y
)
,
0
<
x
<
1
,
0
<
y
<
2
,
0
,
其他.
p(x, y)= \begin{cases}\frac{1}{3}(x+y), & 0<x<1,0<y<2, \\ 0, & \text { 其他. }\end{cases}
p(x,y)={31(x+y),0,0<x<1,0<y<2, 其他.
试求
Var
(
2
X
−
3
Y
+
8
)
\operatorname{Var}(2 X-3 Y+8)
Var(2X−3Y+8)。
解:
Var
(
2
X
−
3
Y
+
8
)
=
Var
(
2
X
)
+
Var
(
3
Y
)
−
2
Cov
(
2
X
,
3
Y
)
=
4
Var
(
X
)
+
9
Var
(
Y
)
−
12
Cov
(
X
,
Y
)
\begin{aligned} \operatorname{Var}(2 X-3 Y+8) &=\operatorname{Var}(2 X)+\operatorname{Var}(3 Y)-2 \operatorname{Cov}(2 X, 3 Y) \\ &=4 \operatorname{Var}(X)+9 \operatorname{Var}(Y)-12 \operatorname{Cov}(X, Y) \end{aligned}
Var(2X−3Y+8)=Var(2X)+Var(3Y)−2Cov(2X,3Y)=4Var(X)+9Var(Y)−12Cov(X,Y)
# 方法一:先计算边际密度函数,再计算特征数
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1/3*(x+y),And(x>0,x<1,y>0,y<2)),(0,True))
p_x = integrate(p_xy, (y, -oo, oo)) # x边际密度函数
p_y = integrate(p_xy, (x, -oo, oo)) # y边际密度函数
E_x2 = integrate(x**2*p_x, (x, -oo, oo))
E_x = integrate(x*p_x, (x, -oo, oo))
E_y2 = integrate(y**2*p_y, (y,-oo,oo))
E_y = integrate(y*p_y, (y,-oo,oo))
E_xy = integrate(x*y*p_xy, (x, -oo, oo),(y,-oo,oo))
cov_xy = E_xy - E_x*E_y
var_x = E_x2 - E_x**2
var_y = E_y2 - E_y**2
var_2x_3y_8 = 4*var_x + 9*var_y -12*cov_xy
var_2x_3y_8
3.02469135802469
# 方法二:直接通过联合密度函数计算特征数
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1/3*(x+y),And(x>0,x<1,y>0,y<2)),(0,True))
E_x2 = integrate(x**2*p_xy, (x, -oo, oo),(y, -oo, oo))
E_x = integrate(x*p_xy, (x, -oo, oo),(y, -oo, oo))
E_y2 = integrate(y**2*p_xy, (x, -oo, oo),(y,-oo,oo))
E_y = integrate(y*p_xy, (x, -oo, oo),(y,-oo,oo))
E_xy = integrate(x*y*p_xy, (x, -oo, oo),(y,-oo,oo))
cov_xy = E_xy - E_x*E_y
var_x = E_x2 - E_x**2
var_y = E_y2 - E_y**2
var_2x_3y_8 = 4*var_x + 9*var_y -12*cov_xy
var_2x_3y_8
3.02469135802469
# 方法三:令z=2*x-3*y+8,使用VAR(Z) = E(Z**2)- E(Z)**2
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1/3*(x+y),And(x>0,x<1,y>0,y<2)),(0,True))
E_z2 = integrate((2*x-3*y+8)**2*p_xy, (x, -oo, oo),(y, -oo, oo))
E_z = integrate((2*x-3*y+8)*p_xy, (x, -oo, oo),(y, -oo, oo))
E_z2 - E_z**2
3.02469135802468
(2.2)协方差矩阵:
假设
n
n
n 维随机向量为
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
′
\boldsymbol{X}=\left(X_{1}, X_{2}, \cdots, X_{n}\right)^{\prime}
X=(X1,X2,⋯,Xn)′的期望向量为:
E
(
X
)
=
(
E
(
X
1
)
,
E
(
X
2
)
,
⋯
,
E
(
X
n
)
)
′
E(\boldsymbol{X})=\left(E\left(X_{1}\right), E\left(X_{2}\right), \cdots, E\left(X_{n}\right)\right)^{\prime}
E(X)=(E(X1),E(X2),⋯,E(Xn))′
那么,我们把
E
[
(
X
−
E
(
X
)
)
(
X
−
E
(
X
)
)
′
]
=
(
Var
(
X
1
)
Cov
(
X
1
,
X
2
)
⋯
Cov
(
X
1
,
X
n
)
Cov
(
X
2
,
X
1
)
Var
(
X
2
)
⋯
Cov
(
X
2
,
X
n
)
⋮
⋮
⋮
Cov
(
X
n
,
X
1
)
Cov
(
X
n
,
X
2
)
⋯
Var
(
X
n
)
)
\begin{aligned} & E\left[(\boldsymbol{X}-E(\boldsymbol{X}))(\boldsymbol{X}-E(\boldsymbol{X}))^{\prime}\right] \\ =&\left(\begin{array}{cccc} \operatorname{Var}\left(X_{1}\right) & \operatorname{Cov}\left(X_{1}, X_{2}\right) & \cdots & \operatorname{Cov}\left(X_{1}, X_{n}\right) \\ \operatorname{Cov}\left(X_{2}, X_{1}\right) & \operatorname{Var}\left(X_{2}\right) & \cdots & \operatorname{Cov}\left(X_{2}, X_{n}\right) \\ \vdots & \vdots & & \vdots \\ \operatorname{Cov}\left(X_{n}, X_{1}\right) & \operatorname{Cov}\left(X_{n}, X_{2}\right) & \cdots & \operatorname{Var}\left(X_{n}\right) \end{array}\right) \end{aligned}
=E[(X−E(X))(X−E(X))′]⎝⎜⎜⎜⎛Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Var(X2)⋮Cov(Xn,X2)⋯⋯⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn)⎠⎟⎟⎟⎞
为该随机向量的方差-协方差矩阵,简称协方差阵,记为
Cov
(
X
)
\operatorname{Cov}(\boldsymbol{X})
Cov(X)。
注意: n n n 维随机向量的协方差矩阵 Cov ( X ) = ( Cov ( X i , X j ) ) n × n \operatorname{Cov}(\boldsymbol{X})=\left(\operatorname{Cov}\left(X_{i}, X_{j}\right)\right)_{n \times n} Cov(X)=(Cov(Xi,Xj))n×n 是一个对称的非负定矩阵。
【例子】设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
{
1
3
(
x
+
y
)
,
0
<
x
<
1
,
0
<
y
<
2
,
0
,
其他.
p(x, y)= \begin{cases}\frac{1}{3}(x+y), & 0<x<1,0<y<2, \\ 0, & \text { 其他. }\end{cases}
p(x,y)={31(x+y),0,0<x<1,0<y<2, 其他.
试求
(
x
,
y
)
(x, y)
(x,y)的协方差矩阵。
# 求协方差矩阵:1.求两两变量的协方差和各自的方差;2. 组合成矩阵
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1/3*(x+y),And(x>0,x<1,y>0,y<2)),(0,True))
p_x = integrate(p_xy, (y, -oo, oo)) # x边际密度函数
p_y = integrate(p_xy, (x, -oo, oo)) # y边际密度函数
E_x2 = integrate(x**2*p_x, (x, -oo, oo))
E_x = integrate(x*p_x, (x, -oo, oo))
E_y2 = integrate(y**2*p_y, (y,-oo,oo))
E_y = integrate(y*p_y, (y,-oo,oo))
E_xy = integrate(x*y*p_xy, (x, -oo, oo),(y,-oo,oo))
cov_xy = E_xy - E_x*E_y
var_x = E_x2 - E_x**2
var_y = E_y2 - E_y**2
Matrix([[var_x,cov_xy],[cov_xy,var_y]])
(3)相关系数与相关系数矩阵:
(3.1)相关系数:
相关系数也是衡量两个随机变量之间的相关关系的特征数,前面所说的协方差也是衡量这个随机变量的相关性大小的,这两者有什么区别呢?协方差并没有排除量纲对数值大小的影响,这样的缺点就是两个协方差之间无法比较相关性的大小。比如: X X X和 Y Y Y与 Z Z Z的相关性如果使用协方差去衡量,那么就不能通过比较 C o v ( X , Z ) Cov(X,Z) Cov(X,Z)与 C o v ( Y , Z ) Cov(Y,Z) Cov(Y,Z)的大小来观察 X X X和 Y Y Y哪个与 Z Z Z最相关。相关系数就是去除量纲影响后的协方差,具体来说:
设
(
X
,
Y
)
(X, Y)
(X,Y) 是一个二维随机变量, 且
Var
(
X
)
=
σ
X
2
>
0
,
Var
(
Y
)
=
σ
Y
2
>
0
\operatorname{Var}(X)=\sigma_{X}^{2}>0, \operatorname{Var}(Y)=\sigma_{Y}^{2}>0
Var(X)=σX2>0,Var(Y)=σY2>0.
则称
Corr
(
X
,
Y
)
=
Cov
(
X
,
Y
)
Var
(
X
)
Var
(
Y
)
=
Cov
(
X
,
Y
)
σ
X
σ
Y
\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}}
Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)=σXσYCov(X,Y)
为
X
X
X 与
Y
Y
Y 的 (线性) 相关系数。
相关系数的性质:
- − 1 ⩽ Corr ( X , Y ) ⩽ 1 -1 \leqslant \operatorname{Corr}(X, Y) \leqslant 1 −1⩽Corr(X,Y)⩽1, 或 ∣ Corr ( X , Y ) ∣ ⩽ 1 |\operatorname{Corr}(X, Y)| \leqslant 1 ∣Corr(X,Y)∣⩽1。
-
Corr
(
X
,
Y
)
=
±
1
\operatorname{Corr}(X, Y)=\pm 1
Corr(X,Y)=±1 的充要条件是
X
X
X 与
Y
Y
Y 间几乎处处有线性关系, 即存在
a
(
≠
0
)
a(\neq 0)
a(=0) 与
b
b
b, 使得
P ( Y = a X + b ) = 1 P(Y=a X+b)=1 P(Y=aX+b)=1 - 相关系数 Corr ( X , Y ) \operatorname{Corr}(X, Y) Corr(X,Y) 刻画了 X X X 与 Y Y Y 之间的线性关系强弱, 因此也常称其为 “线性相关系数”。
- 若 Corr ( X , Y ) = 0 \operatorname{Corr}(X, Y)=0 Corr(X,Y)=0, 则称 X X X 与 Y Y Y 不相关。不相关是指 X X X 与 Y Y Y 之间没有线性关系, 但 X X X 与 Y Y Y 之间可能有其他的函数关系, 譬如平方关系、对数关系等。
- 若 Corr ( X , Y ) = 1 \operatorname{Corr}(X, Y)=1 Corr(X,Y)=1, 则称 X X X 与 Y Y Y 完全正相关; 若 Corr ( X , Y ) = − 1 \operatorname{Corr}(X, Y)=-1 Corr(X,Y)=−1, 则称 X X X 与 Y Y Y 完全负相关。
- 若 0 < ∣ Corr ( X , Y ) ∣ < 1 0<|\operatorname{Corr}(X, Y)|<1 0<∣Corr(X,Y)∣<1, 则称 X X X 与 Y Y Y 有 “一定程度” 的线性关系。 ∣ Corr ( X , Y ) ∣ |\operatorname{Corr}(X, Y)| ∣Corr(X,Y)∣ 越接近于 1, 则线性相关程度越高; ∣ Corr ( X , Y ) ∣ |\operatorname{Corr}(X, Y)| ∣Corr(X,Y)∣ 越接近于 0 , 则线性相关程度越低。 而协方差看不出这一点, 若协方差很小, 而其两个标准差 σ X \sigma_{X} σX 和 σ Y \sigma_{Y} σY 也很小, 则其比值就不一定很小。
(3.2)相关系数矩阵:
类似于协方差矩阵,相关系数矩阵就是把协方差矩阵中每个元素替换成相关系数,具体来说就是:
Corr
(
X
,
Y
)
=
Cov
(
X
,
Y
)
Var
(
X
)
Var
(
Y
)
=
Cov
(
X
,
Y
)
σ
X
σ
Y
=
(
1
Corr
(
X
1
,
X
2
)
⋯
Corr
(
X
1
,
X
n
)
Corr
(
X
2
,
X
1
)
1
⋯
Corr
(
X
2
,
X
n
)
⋮
⋮
⋮
Corr
(
X
n
,
X
1
)
Corr
(
X
n
,
X
2
)
⋯
1
)
\begin{aligned} & \operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}} \\ =&\left(\begin{array}{cccc} 1 & \operatorname{Corr}\left(X_{1}, X_{2}\right) & \cdots & \operatorname{Corr}\left(X_{1}, X_{n}\right) \\ \operatorname{Corr}\left(X_{2}, X_{1}\right) & 1 & \cdots & \operatorname{Corr}\left(X_{2}, X_{n}\right) \\ \vdots & \vdots & & \vdots \\ \operatorname{Corr}\left(X_{n}, X_{1}\right) & \operatorname{Corr}\left(X_{n}, X_{2}\right) & \cdots & 1 \end{array}\right) \end{aligned}
=Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)=σXσYCov(X,Y)⎝⎜⎜⎜⎛1Corr(X2,X1)⋮Corr(Xn,X1)Corr(X1,X2)1⋮Corr(Xn,X2)⋯⋯⋯Corr(X1,Xn)Corr(X2,Xn)⋮1⎠⎟⎟⎟⎞
【例子】设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
{
1
3
(
x
+
y
)
,
0
<
x
<
1
,
0
<
y
<
2
,
0
,
其他.
p(x, y)= \begin{cases}\frac{1}{3}(x+y), & 0<x<1,0<y<2, \\ 0, & \text { 其他. }\end{cases}
p(x,y)={31(x+y),0,0<x<1,0<y<2, 其他.
试求
(
x
,
y
)
(x, y)
(x,y)的相关系数矩阵。
# 求相关系数矩阵:1.求两两变量的相关系数;2. 组合成矩阵
from sympy import *
x = symbols('x')
y = symbols('y')
p_xy = Piecewise((1/3*(x+y),And(x>0,x<1,y>0,y<2)),(0,True))
p_x = integrate(p_xy, (y, -oo, oo)) # x边际密度函数
p_y = integrate(p_xy, (x, -oo, oo)) # y边际密度函数
E_x2 = integrate(x**2*p_x, (x, -oo, oo))
E_x = integrate(x*p_x, (x, -oo, oo))
E_y2 = integrate(y**2*p_y, (y,-oo,oo))
E_y = integrate(y*p_y, (y,-oo,oo))
E_xy = integrate(x*y*p_xy, (x, -oo, oo),(y,-oo,oo))
cov_xy = E_xy - E_x*E_y
var_x = E_x2 - E_x**2
var_y = E_y2 - E_y**2
corr_xy = cov_xy/(sqrt(var_x*var_y))
Matrix([[1,corr_xy],[corr_xy,1]])
七、随机变量序列的收敛状态:依概率收敛、依分布收敛
在之前的学习中,我们学习了概率论的基本概念、一维随机变量及其相关的概率密度函数、分布函数、分布列以及数字特征、多维随机变量的联合密度函数、联合分布函数、联合分布列以及数字特征等,下面来总结这些概念之间的关系:
- 在随机现象和概率的讨论中,我们主要学习了样本点与样本空间,并由样本点的集合构成随机事件,主要目的是计算某个随机事件的概率,其中有一类特殊的概率叫条件概率,由条件概率延伸出的三大公式:乘法公式、全概率公式以及贝叶斯公式。
- 在一维随机变量的讨论中,我们为什么会设计随机变量呢?是因为我们想用数理的形式研究这些随机事件及其概率,用文字表示的随机事件麻烦,而且数理形式还能使用高等数学的理论研究,如:极限、微分学、积分学等。因此,随机变量诞生的目的其实就是为了将随机事件使用数轴范围表示出来,那随机变量每一个取值其实就是一个样本点,随机变量的定义域就是样本空间。接下来,我们希望计算由随机变量表示的随机事件的概率,因为这才是我们的主要目的。因此,可以从两个角度去计算由随机变量表示的随机事件的概率,那就是使用概率直接计算的分布函数与间接使用密度计算的密度函数/分布列。在实际的现实应用上,记住一个函数或者使用计算机存储一个函数的各个取值是很困难的,而且有时候我们仅仅只需要知道随机变量的某个侧面的信息,因此数字特征就是这么诞生的。
- 在多维随机变量(维度是有限的)的讨论中,有时候影响某件事概率的因素会有很多个,单一随机变量不足以表达完整信息,需要使用多个随机变量才能表达更多的信息,因此根据线性代数的理论,将一维推广至多维可以使用向量/矩阵表达,多维随机变量/随机向量就此诞生。同时,我们需要将一维随机变量的所有理论推广至多维,因此联合密度函数、联合分布列与联合分布函数就此出现。多维随机变量的数字特征也由原来的单一的一个随机变量的数字特征推广至两个变量之间的数字特征,如协方差、相关系数等等。
因此,我们在这里更进一步,将随机变量的维度推广至无穷维,我们想要研究随机变量的序列在数量 n → ∞ n \rightarrow \infty n→∞会怎么变化,会不会出现什么规律。在高等数学中,我们是使用“极限“这个工具研究 n → ∞ n \rightarrow \infty n→∞的情况,那么概率论借用了这个理论,也是使用”极限“研究随机变量序列在数量 n → ∞ n \rightarrow \infty n→∞时的变化规律。
(1)依概率收敛:
在前面的学习中,我们有一个观点是:频率可以近似地看成概率,这个观点十分直观但是并没有告诉我们频率什么时候可以近似概率。事实上,频率是概率的稳定值,又或者说频率稳定于概率。下面,我们通过几个例子来看看什么是“稳定”:
设有一大批产品, 其不合格品率为
p
p
p。 现一个接一个地检查产品的合格性,记前
n
n
n 次检查发现
S
n
S_{n}
Sn 个不合格品, 而
v
n
=
S
n
n
v_{n}=\frac{S_{n}}{n}
vn=nSn 为不合格品出现的频率。 当检查继续下去, 我们就发现频率序列
{
v
n
}
\left\{v_{n}\right\}
{vn} 有如下两个现象:
(1)频率
v
n
v_{n}
vn 对概率
p
p
p 的绝对偏差
∣
v
n
−
p
∣
\left|v_{n}-p\right|
∣vn−p∣ 将随
n
n
n 增大而呈现逐渐减小的趋势, 但无法说它收玫于零。
(2)由于频率的随机性,绝对偏差 ∣ v n − p ∣ \left|v_{n}-p\right| ∣vn−p∣ 时大时小。 虽然我们无法排除大偏差发生的可能性, 但随着 n n n 不断增大, 大偏差发生的可能性会越来越小。这是一种新的极限概念。
对任意给定的
ε
>
0
\varepsilon>0
ε>0, 事件
{
∣
v
n
−
p
∣
⩾
ε
}
\left\{\left|v_{n}-p\right| \geqslant \varepsilon\right\}
{∣vn−p∣⩾ε} 出现了就认为大偏差发生了。而大偏差发生的可能性越来越小,相当于
P
(
∣
v
n
−
p
∣
⩾
ε
)
→
0
,
(
n
→
∞
)
P\left(\left|v_{n}-p\right| \geqslant \varepsilon\right) \rightarrow 0,(n \rightarrow \infty)
P(∣vn−p∣⩾ε)→0,(n→∞)
这时就可称频率序列
{
v
n
}
\left\{v_{n}\right\}
{vn} 依概率收敛。 这就是 “频率稳定于概率” 的含义。
有了以上的案例铺垫,以概率收敛就很好理解了,具体来说:
设
{
X
n
}
\left\{X_{n}\right\}
{Xn} 为一随机变量序列,
X
X
X 为一随机变量, 如果对任意的
ε
>
0
\varepsilon>0
ε>0, 有
P
(
∣
X
n
−
X
∣
⩾
ε
)
→
0
(
n
→
∞
)
,
P\left(\left|X_{n}-X\right| \geqslant \varepsilon\right) \rightarrow 0(n \rightarrow \infty),
P(∣Xn−X∣⩾ε)→0(n→∞),
则称序列
{
X
n
}
\left\{X_{n}\right\}
{Xn} 依概率收敛于
X
X
X, 记作
X
n
⟶
P
X
X_{n} \stackrel{P}{\longrightarrow} X
Xn⟶PX。
依概率收敛的含义是:
X
n
X_{n}
Xn 对
X
X
X 的绝对偏差不小于任一给定量的可能性将随着
n
n
n增大而愈来愈小。或者说, 绝对偏差
∣
X
n
−
X
∣
\left|X_{n}-X\right|
∣Xn−X∣ 小于任一给定量的可能性将随着
n
n
n 增大而愈来愈接近于 1 , 即
P
(
∣
X
n
−
X
∣
⩾
ε
)
→
0
(
n
→
∞
)
P\left(\left|X_{n}-X\right| \geqslant \varepsilon\right) \rightarrow 0(n \rightarrow \infty)
P(∣Xn−X∣⩾ε)→0(n→∞)等价于
P
(
∣
X
n
−
X
∣
<
ε
)
→
1
(
n
→
∞
)
P\left(\left|X_{n}-X\right|<\varepsilon\right) \rightarrow 1 \quad(n \rightarrow \infty)
P(∣Xn−X∣<ε)→1(n→∞)
特别当
X
X
X 为退化分布时, 即
P
(
X
=
c
)
=
1
P(X=c)=1
P(X=c)=1(像概率p就是一个案例,频率不断趋近于一个常数p,这个p就是概率), 则称序列
{
X
n
}
\left\{X_{n}\right\}
{Xn} 依概率收敛于
c
c
c, 即
X
n
⟶
P
c
X_{n} \stackrel{P}{\longrightarrow} c
Xn⟶Pc。
(2)依分布收敛:
刚刚给大家介绍的依概率收敛,描述的是当 n → ∞ n \rightarrow \infty n→∞时,随机变量序列越来越接近(趋近于)某个确定的随机变量的概率接近于1。同时,我们也知道随机变量的分布函数全面描述了随机变量的规律,因此会不会随机变量的分布函数序列 { F n ( x ) } \{F_n(x) \} {Fn(x)}会收敛到一个极限分布函数 F ( x ) F(x) F(x)呢?而依分布收敛描述的就是随机变量的分布函数序列 { F n ( x ) } \{F_n(x) \} {Fn(x)}如何收敛到极限分布函数 F ( x ) F(x) F(x)的规律,具体来说:
设随机变量
X
,
X
1
,
X
2
,
⋯
X, X_{1}, X_{2}, \cdots
X,X1,X2,⋯ 的分布函数分别为
F
(
x
)
,
F
1
(
x
)
,
F
2
(
x
)
,
⋯
F(x), F_{1}(x), F_{2}(x), \cdots
F(x),F1(x),F2(x),⋯。 若对
F
(
x
)
F(x)
F(x) 的任一连续点
x
x
x, 都有
lim
n
→
∞
F
n
(
x
)
=
F
(
x
)
,
\lim _{n \rightarrow \infty} F_{n}(x)=F(x),
n→∞limFn(x)=F(x),
则称
{
F
n
(
x
)
}
\left\{F_{n}(x)\right\}
{Fn(x)} 弱收敛于
F
(
x
)
F(x)
F(x), 记作
F
n
(
x
)
⟶
W
F
(
x
)
F_{n}(x) \stackrel{W}{\longrightarrow} F(x)
Fn(x)⟶WF(x)
也称相应的随机变量序列
{
X
n
}
\left\{X_{n}\right\}
{Xn} 按分布收敛于
X
X
X, 记作
X
n
⟶
L
X
X_{n} \stackrel{L}{\longrightarrow} X
Xn⟶LX
在以上的定义中,我们看到一个词,叫弱收敛,为什么叫弱收敛呢?事实上,依概率收敛是一种比按分布收敛更强的收敛性,也就是说依概率收敛可以推出按分布收敛。
八、大数定律
大数定律由雅各布·伯努利(1654-1705)提出,他是瑞士数学家、也是概率论的重要奠基人,伯努利大数定理以严密的数学形式论证了频率的稳定性。大数定律讲的是:当随机事件发生的次数足够多时,随机事件发生的频率 v n v_n vn趋近于预期的概率 p p p。可以简单理解为样本数量越多,频率越接近于期望值(概率值),这个解释是不是很像依概率收敛的概念,其实大数定律的确是依概率收敛的案例。 大数定律的条件:独立重复事件与重复次数足够多。
与“大数定律”对应的,就是“小数定律”, 小数定律讲的是:如果试验次数比较小,那么在试验中什么样的极端情况都有可能出现。 当我们在判断随机事件发生的概率时,往往会违背大数定律,而不经意地使用“小数定律”,会觉得典型事件肯定会发生,往往会犯以偏概全的错误。黑天鹅事件往往就是指这种情况,即便一个东西概率很低,只要次数足够多,就一定会发生(金融危机),而如果这个东西会造成巨大的影响,我们不得不事先做好准备,避免遭受无法承受的打击。换句话来说,我们也会认为在单次试验中,小概率事件往往不发生,这个结论是假设检验的根本!
下面,我们来介绍大数定律的两种表达,这两种表达都对后面的数理统计有十分重要的作用。
- 伯努利大数定律:
设
S
n
S_{n}
Sn 为
n
n
n 重伯努利试验(结果只有0-1)中事件
A
A
A 发生的次数,
S
n
n
\frac{S_{n}}{n}
nSn就是事件
A
A
A 发生的频率,
p
p
p 为每次试验中
A
A
A 出现的概率, 则对任意的
ε
>
0
\varepsilon>0
ε>0, 有
lim
n
→
∞
P
(
∣
S
n
n
−
p
∣
<
ε
)
=
1
\lim _{n \rightarrow \infty} P\left(\left|\frac{S_{n}}{n}-p\right|<\varepsilon\right)=1
n→∞limP(∣∣∣∣nSn−p∣∣∣∣<ε)=1
伯努利大数定律的道理是频率稳定于概率,已经在依概率收敛里讲的很清楚了,这里不多加阐述。下面,我们利用这个结论,看看如何使用伯努利大数定律计算定积分的值,这个方法叫做蒙特卡洛模拟法(随机投点法)。
【例子】使用蒙特卡洛求定积分
设
0
⩽
f
(
x
)
⩽
1
0 \leqslant f(x) \leqslant 1
0⩽f(x)⩽1, 求
f
(
x
)
f(x)
f(x) 在 区间
[
0
,
1
]
[0,1]
[0,1] 上的积分值
J
=
∫
0
1
f
(
x
)
d
x
J=\int_{0}^{1} f(x) \mathrm{d} x
J=∫01f(x)dx
方法就是:我们在正方形
{
0
⩽
x
⩽
1
,
0
⩽
y
⩽
1
}
\{0 \leqslant x \leqslant 1,0 \leqslant y \leqslant 1\}
{0⩽x⩽1,0⩽y⩽1}内均匀地投点
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi),投n个点,点越多越好。如果某个点
y
i
≤
f
(
x
i
)
y_i \le f(x_i)
yi≤f(xi),则认为事件发生,我们计算满足
y
i
≤
f
(
x
i
)
y_i \le f(x_i)
yi≤f(xi)点的个数
S
n
S_n
Sn,使用大数定律:频率稳定于概率,即:
S
n
n
\frac{S_n}{n}
nSn就是积分值。
# 蒙特卡洛积分计算的原理:
from scipy.stats import uniform
x_arr = np.linspace(0,1,1000)
x_n = uniform.rvs(size = 100) # 随机选择n个x随机数
y_n = uniform.rvs(size = 100) # 随机选择n个y随机数
plt.stackplot(x_arr,np.square(x_arr),alpha=0.5,color="skyblue") #堆积面积图
plt.scatter(x_n,y_n)
plt.text(1.0,1.0,r'$y=x^2$')
plt.show()
# 使用蒙特卡洛法计算y=x^2在【0,1】上的定积分
from scipy.stats import uniform
def MonteCarloRandom(n):
x_n = uniform.rvs(size = n) # 随机选择n个x随机数
y_n = uniform.rvs(size = n) # 随机选择n个y随机数
f_x = np.square(x_n) # 函数值f_x = x**2
binory_y = [1.0 if y_n[i] < f_x[i] else 0 for i in range(n)] # 如果y<x**2则为1,否则为0
J = np.sum(binory_y) / n
return J
print("y=x**2在[0,1]的定积分为:",integrate(x**2, (x,0,1)))
print("模拟10次的定积分为:",MonteCarloRandom(10))
print("模拟100次的定积分为:",MonteCarloRandom(100))
print("模拟1000次的定积分为:",MonteCarloRandom(1000))
print("模拟10000次的定积分为:",MonteCarloRandom(10000))
print("模拟100000次的定积分为:",MonteCarloRandom(100000))
print("模拟1000000次的定积分为:",MonteCarloRandom(1000000))
y=x**2在[0,1]的定积分为: 1/3
模拟10次的定积分为: 0.4
模拟100次的定积分为: 0.26
模拟1000次的定积分为: 0.342
模拟10000次的定积分为: 0.3354
模拟100000次的定积分为: 0.33262
模拟1000000次的定积分为: 0.333553
- 辛钦大数定律:
设 { X n } \left\{X_{n}\right\} {Xn} 为一独立同分布的随机变量序列, 若 X i X_{i} Xi 的数学期望存在, 则 { X n } \left\{X_{n}\right\} {Xn} 服从大数定律, 即对任意的 ε > 0 \varepsilon>0 ε>0, lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε ) = 1 \lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^{n} X_{i}-\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}\right)\right|<\varepsilon\right)=1 limn→∞P(∣∣n1∑i=1nXi−n1∑i=1nE(Xi)∣∣<ε)=1成立。
对于独立同分布且具有相同均值 μ \mu μ 的随机变量X, X 1 , X 2 , … … X n X_1, X_2, \ldots \ldots X_n X1,X2,……Xn ,当 n n n 很大时,它们的算术平均数 1 n ∑ i = 1 n X i \frac{1}{n} \sum_{i=1}^{n} X_{i} n1∑i=1nXi 很接近于 μ \mu μ。也就是说可以使用样本的均值去估计总体均值。
九、中心极限定理
大数定律讨论的是在什么条件下(独立同分布且数学期望存在),随机变量序列的算术平均依概率收敛到其均值的算术平均。下面,我们来讨论什么情况下,独立随机变量的和
Y
n
=
∑
i
=
1
n
X
i
Y_n = \sum_{i=1}^nX_i
Yn=∑i=1nXi的分布函数会依分布收敛于正态分布。我们使用一个小例子来说明什么是中心极限定理:
我们想研究一个复杂工艺产生的产品误差的分布情况,诞生该产品的工艺中,有许多方面都能产生误差,如:每个流程中所需的生产设备的精度误差、材料实际成分与理论成分的差异带来的误差、工人当天的专注程度、测量误差等等。由于这些因素非常多,每个影响产品误差的因素对误差的影响都十分微笑,而且这些因素的出现也十分随机,数值有正有负。现在假设每一种因素都假设为一个随机变量
X
i
X_i
Xi,先按照直觉假设
X
i
X_i
Xi服从
N
(
0
,
σ
i
2
)
N(0,\sigma_i^2)
N(0,σi2),零均值假设是十分合理的,因为这些因素的数值有正有负,假设每一个因素的随机变量的方差
σ
i
2
\sigma_i^2
σi2是随机的。接下来,我们希望研究的是产品的误差
Y
n
=
X
1
+
X
2
+
⋯
+
X
n
Y_{n}=X_{1}+X_{2}+\cdots+X_{n}
Yn=X1+X2+⋯+Xn,当n很大时是什么分布?
# 模拟n个正态分布的和的分布
from scipy.stats import norm
def Random_Sum_F(n):
sample_nums = 10000
random_arr = np.zeros(sample_nums)
for i in range(n):
mu = 0
sigma2 = np.random.rand()
err_arr = norm.rvs(size=sample_nums)
random_arr += err_arr
plt.hist(random_arr)
plt.title("n = "+str(n))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.show()
Random_Sum_F(2)
Random_Sum_F(10)
Random_Sum_F(100)
Random_Sum_F(1000)
Random_Sum_F(10000)
有可能你会觉得,n个正态分布的和肯定还是正态分布啦,那如果误差满足其他分布的情况下,是否还有上述实验的规律呢?我们验证下,这次我们使用均匀分布、指数分布、泊松分布、0-1分布:
# 模拟n个均匀分布的和的分布
from scipy.stats import uniform
def Random_Sum_F(n):
sample_nums = 10000
random_arr = np.zeros(sample_nums)
for i in range(n):
err_arr = uniform.rvs(size=sample_nums)
random_arr += err_arr
plt.hist(random_arr)
plt.title("n = "+str(n))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.show()
Random_Sum_F(2)
Random_Sum_F(10)
Random_Sum_F(100)
Random_Sum_F(1000)
Random_Sum_F(10000)
# 模拟n个指数分布的和的分布
from scipy.stats import expon
def Random_Sum_F(n):
sample_nums = 10000
random_arr = np.zeros(sample_nums)
for i in range(n):
err_arr = expon.rvs(size=sample_nums)
random_arr += err_arr
plt.hist(random_arr)
plt.title("n = "+str(n))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.show()
Random_Sum_F(2)
Random_Sum_F(10)
Random_Sum_F(100)
Random_Sum_F(1000)
Random_Sum_F(10000)
# 模拟n个泊松分布的和的分布
from scipy.stats import poisson
def Random_Sum_F(n):
sample_nums = 10000
random_arr = np.zeros(sample_nums)
for i in range(n):
mu = 1.0
err_arr = poisson.rvs(mu=mu,size=sample_nums)
random_arr += err_arr
plt.hist(random_arr)
plt.title("n = "+str(n))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.show()
Random_Sum_F(2)
Random_Sum_F(10)
Random_Sum_F(100)
Random_Sum_F(1000)
Random_Sum_F(10000)
# 模拟n个0-1分布的和的分布
from scipy.stats import bernoulli
def Random_Sum_F(n):
sample_nums = 10000
random_arr = np.zeros(sample_nums)
for i in range(n):
p = 0.5
err_arr = bernoulli.rvs(p=p,size=sample_nums)
random_arr += err_arr
plt.hist(random_arr)
plt.title("n = "+str(n))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.show()
Random_Sum_F(2)
Random_Sum_F(10)
Random_Sum_F(100)
Random_Sum_F(1000)
Random_Sum_F(10000)
以上实验说明了一个道理:假设
{
X
n
}
\left\{X_{n}\right\}
{Xn} 独立同分布、方差存在, 不管原来的分布是什么, 只要
n
n
n 充分大,就可以用正态分布去逼近随机变量和的分布,所以这个定理有着广泛的应用。下面,我们来看看如何使用中心极限定理产生一组正态分布的随机数!
计算机往往只能产生一组服从均匀分布的随机数,那么如果我们想要产生一组服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的随机数,应该如何操作呢?设随机变量 X X X 服从 ( 0 , 1 ) (0,1) (0,1) 上的均匀分布, 则其数学期望与方差分别为 1 / 2 1 / 2 1/2 和 1 / 12 1 / 12 1/12。 由此得 12 个相互独立的 ( 0 , 1 ) (0,1) (0,1) 上均匀分布随机变量和的数学期望与方差分别为 6 和 1。因此:
- 产生 12 个 ( 0 , 1 ) (0,1) (0,1) 上均匀分布的随机数, 记为 x 1 , x 2 , ⋯ , x 12 x_{1}, x_{2}, \cdots, x_{12} x1,x2,⋯,x12。
- 计算 y = x 1 + x 2 + ⋯ + x 12 − 6 y=x_{1}+x_{2}+\cdots+x_{12}-6 y=x1+x2+⋯+x12−6, 则由中心极限定理知, 可将 y y y 近似看成来自标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1) 的一个随机数。
- 计算 z = μ + σ y z=\mu+\sigma y z=μ+σy, 则可将 z z z 看成来自正态分布 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的一个随机数。
- 重复N次就能获得N个服从正态分布 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的随机数。
# 由均匀分布随机数产生N个正态分布的随机数
import random
def Random_Norm(N,mu,sigma):
random_list = []
for i in range(N):
uniform_sum = 0
for j in range(12):
uniform_rand = random.random() # [0,1]均匀分布的随机数
uniform_sum += uniform_rand
y = uniform_sum - 6
z = mu + sigma * y
random_list.append(z)
return random_list
norm_random_list = Random_Norm(10000,10,2)
plt.hist(np.array(norm_random_list))
plt.xlabel("x")
plt.ylabel("p (x)")
plt.title("由均匀分布随机数构造正态分布随机数")
plt.text(16,2500,r'$N(10,4)$')
plt.show()
十、数学建模综合案例分析:投资组合风险分析
GitModel公司是一家专业的投资银行,志在帮助客户更好地管理资产。客户手头上有一笔100万的资金,希望将这笔钱投入股票市场进行投资理财,投资人看中了两个股票 A A A、 B B B,股票分析师通过对股票 A A A、 B B B的历史数据分析发现:股票 A A A的平均收益近似服从 N ( 0.1 , 0.01 ) N(0.1,0.01) N(0.1,0.01),股票B的平均收益近似服从 N ( 0.3 , 0.04 ) N(0.3,0.04) N(0.3,0.04)。 现在客户希望通过分析得出投资股票 A A A、 B B B的最佳组合(在预期收益确定情况下最小风险时,需要投资 A A A、 B B B的份额)。
分析:首先,我们先来分析投资组合的收益应该如何计算:设 A A A、 B B B的投资收益率为随机变量 X X X、 Y Y Y,因此 X ~ N ( 0.1 , 0.01 ) X~N(0.1,0.01) X~N(0.1,0.01), Y ~ N ( 0.3 , 0.04 ) Y~N(0.3,0.04) Y~N(0.3,0.04)。设 x 1 x_1 x1为投资A的份额, y 1 = 1 − x 1 y_1=1-x_1 y1=1−x1为投资B的份额,因此投资组合的收益率为: Z = x 1 ∗ X + y 1 ∗ Y Z = x_1*X + y_1*Y Z=x1∗X+y1∗Y,投资组合的平均收益率为: E ( Z ) = x 1 ∗ E ( X ) + y 1 ∗ E ( Y ) E(Z) = x_1*E(X) + y_1*E(Y) E(Z)=x1∗E(X)+y1∗E(Y)。
接下来,我们来分析投资组合的风险应该如何计算:何为风险,最简单来说就是收益的不确定性,如果收益是确定且固定的,就无所谓的风险可言。根据对风险的直观描述,我们可以定义风险为收益率的方差,因此:股票A的风险为
σ
x
2
=
0.01
\sigma_x^2 = 0.01
σx2=0.01,股票B的风险为
σ
y
2
=
0.04
\sigma_y^2 = 0.04
σy2=0.04,而投资组合的风险为
V
a
r
(
Z
)
=
V
a
r
(
x
1
∗
X
+
y
1
∗
Y
)
=
x
1
2
Var
(
X
)
+
y
1
2
Var
(
Y
)
+
2
x
1
y
1
Cov
(
X
,
Y
)
\begin{aligned} Var(Z) &= Var(x_1*X + y_1*Y)\\ &=x_{1}^{2} \operatorname{Var}(X)+y_{1}^{2} \operatorname{Var}(Y)+2 x_{1}y_{1} \operatorname{Cov}(X, Y) \end{aligned}
Var(Z)=Var(x1∗X+y1∗Y)=x12Var(X)+y12Var(Y)+2x1y1Cov(X,Y)
因此,最佳的投资组合应该是风险最小时的投资组合,即:
m
i
n
V
a
r
(
Z
)
=
m
i
n
x
1
2
Var
(
X
)
+
y
1
2
Var
(
Y
)
+
2
x
1
y
1
Cov
(
X
,
Y
)
=
d
(
V
a
r
(
Z
)
)
d
(
x
1
)
=
0
\begin{aligned} &min \quad Var(Z) \\ &= min \quad x_{1}^{2} \operatorname{Var}(X)+y_{1}^{2} \operatorname{Var}(Y)+2 x_{1}y_{1} \operatorname{Cov}(X, Y)\\ &=\frac{d(Var(Z))}{d(x_1)} = 0 \end{aligned}
minVar(Z)=minx12Var(X)+y12Var(Y)+2x1y1Cov(X,Y)=d(x1)d(Var(Z))=0
总结
本次任务主要学习了概率论的相关内容,包括随机现象与概率、条件概率、乘法公式、全概率公式与贝叶斯公式一维随机变量及其分布函数和密度函数、一维随机变量的数字特征:期望、方差、分位数与中位数五、多维随机变量及其联合分布、边际分布、条件分布、大数定律、中心极限定理等,结合具体例子,理解起来较轻松。