序号 | 日期 | 备注 |
1 | 2023-10-13 | 修改部分打字错误 |
本章内容
- 5.1 引言
- 5.2 收敛的类型
- 5.3 大数定律(The Law of Large Numbers)
- 5.4 中心极限定理(The Central Limit Theorem)
- 5.5 Delta方法
关键名词,存在部分词不达意的情况,因此将关键名词整理如下
1. 大数定律:The Law of Large Numbers
2. 中心极限定理:The Central Limit Theorem
3. 大样本理论:large sample theory
4. 极限理论:limit Theory
5. 渐进理论:asymptotic theory
6. 斯卢茨基定理:Slutzky's theorem
7. 弱大数定理:The Weak Law of Large Numbers(WLLN)
8. 多元中心极限定理:Multivariate central limit theorem
5.1 引言
概率论中最关心的一个方面就是随机变量序列的行为。概率论的这部分被称为,大样本理论(large sample theory)或者极限理论(limit Theory)或者渐进理论(asymptotic theory).最基本的问题就是:随机变量序列 X1,X2,...的极限行为是什么?因为统计学和数据挖掘都要收集数据,自然而然的我们就会想,当收集的数据越来越多,将会发生什么。
在微积分中,如果任意,存在一个大于n的数,使得
成立。我们就说
收敛于x,这个x就是
的极限。在概率论中,收敛就变得有些微妙了。先暂时回到微积分中,假如对于所有的n来说,都有
,那么,显然
.那么我们来思考思考这个例子的概率模型。假如X1,X2....是随机变量序列,他们是独立的,且都符合N(0,1)分布。由于这些随机变量都有相同的分布,因此我们可以说Xn收敛于X,X服从正态分布
。但是这又不是十分精确的,因为所有的n来讲
(两个连续的随机变量相等的概率为0)
此处有另外一个例子。考虑X1,X2,...其中Xi服从分布。直观上,当n变大时,Xn集中在0附近,因此我们可以说Xn趋向于0。但是对于所有的n来讲
.显然我们需要开发一种工具,以更严格的方式来讨论这种收敛。本章就来开发这种合适的方法。
本章有两种主要的观点,非正式的陈述如下:
- 大数定律(the law of large numbers)表明:样本均值(sample average
)收敛于期望
这就意味着
以很高的概率接近于μ
- 中心极限定理(the central limit theorem)表明:
在分布上收敛于正态分布。这就意味着当n足够大时,样本均值服从正态分布
5.2 收敛的类型
两种主要的收敛类型被定义如下:
5.1 定义
令X1,X2...是随机变量序列,X是另外的随机变量。再令
是Xn的CDF,
是X的CDF。
- 对于任意
,当
时,有
.则称Xn在概率上收敛于X,记作
- 如果对于所有t来讲,存在
,其中F是连续函数,则称Xn在分布上收敛于X,记作
当限制随机变量服从点质量分布时,我们稍微改变一下写法。如果,且
,那么我们可以写成
.类似的我们还可以写成
还要再介绍另一种收敛类型,引入它主要是因为它对于证明概率收敛非常有用。
5.2 定义
如果,当
时,
,则称Xn在均方下收敛于X。记作
同样,如果X服从点质量分布时,则可以将其写成
5.3 例子
设.直观上,Xn渐渐聚集于0附近。因此我们可以说Xn在概率上收敛于0.现在让我们来看看它是否正确。令F是在0处的点质量分布函数。注意到
,令Z为标准正态随机变量。对于t<0,有
,因为
.而对于t>0,有
,因为
。
因此对于,有
.所以Xn再分布上收敛于0.
注意,,因此在t=0处,收敛不成立。这并不重要,因为 t = 0 不是 F 的连续点,而在分布收敛的定义中,只要求在连续点处的收敛。见下图
现在来思考在概率上的收敛。对于任意,当
,使用马尔可夫不等式(Markov's inequality)得
因此Xn在概率上收敛于0.
下面的定理,给出了两个收敛类型的关系。结果总结在下图
5.4 定理
如下关系成立
隐含
隐含Xn在分布上收敛于X,
- 如果Xn在分布上收敛于X,且
,那么Xn在概率上收敛于X,
通常情况下,除了第三点以外,反向并不成立。
证明,从证明第一点开始。假定,对于固定的
.那么使用马尔可夫不等式
证明第二点。这个证明有点复杂,如果你不想看的话,可以跳过。固定,令x为F的连续点。那么
同时,
因此,
取极限得,
上市对于所有都成立,对上式
取极限,且F在x处连续得
证明第三点。固定,那么
现在让我们来证明反方向不成立。
在概率上收敛并不意味着在均方下收敛:令,再令
,那么
.因此
,但是对于所有n来说,
,所以Xn不会在均方下收敛。
在分布上收敛并不意味着在概率上收敛:令,
,其中n=1,2,3....因此
.对于所有的n来讲,Xn和X有相同的分布函数。因此,对于所有的x
,所以Xn在分布上收敛于X。但是
。所以Xn在概率上并不收敛于X
警告:有人可能会认为如果,那么
,这是不正确的。令X是概率为
,
的随机变量.现在,
.因此,
.但是,
,因此
5.5 定理
令Xn,X,Yn,Y是随机变量,设g是一个连续函数
- 如果
,且
,那么
- 如果
,且
,那么
- 如果Xn在分布上收敛于X,
Yn在分布上收敛于c,那么Xn+Yn在分布上收敛于X+c
- 如果
,且
,那么
- 如果Xn在分布上收敛于X,Yn在分布上收敛于c,那么XnYn在分布上收敛于cX
- 如果
,那么
- 如果Xn在分布上收敛于X,那么g(Xn)在分布上收敛于g(X)
其中3-5就是斯卢茨基定理(Slutzky's theorem).值得注意的是,Xn在分布上收敛于X,Yn在分布上收敛于Y,并不能得出Xn+Yn在分布上收敛于X+Y
5.3 大数定律
现在我们来到了概率论中的巅峰成就——大数定律(The Law of Large Numbers).这个理论表明,大量样本的平均值接近于分布的均值。例如,大量抛硬币,正面朝上的比例接近于1/2。现在让我们来更加精确的描述它。
设X1,X2...是独立同分布样本,在设,
.回忆一下,样本均值为:
;
;
5.6 定理
弱大数定理(The Weak Law of Large Numbers)(WLLN)
如果X1,X2...Xn是独立同分布,那么
WLLN(大数定律)的解释:随着 n 的增大,Xn 的分布逐渐集中在 μ周围。
证明:假定,这个假设不是必须的,但是它简化了证明。使用切比雪夫不等式得:
.当n趋于无穷时,该式趋于0.
5.7 例子
考虑抛掷一枚硬币,其中正面出现的概率为 p。令Xi为单次抛掷的结果(0,1).因此.n此抛掷之后的正面朝上的比例为:
.根据大数定律,
在概率上收敛于p。这并不意味着
在数值上等于p。它仅意味着,当n足够大时,
的分布紧紧围绕在p周围。假如p=1/2,那么多大的n,可以让
.首先,
,且
,由切比雪夫不等式得:
得,如果n=84,那么表达式将会大于0.7
5.4 中心极限定理
大数定律表明,的分布聚集在
附近。它并不能帮助我们陈述
的概率性质,为此我们还需要中心极限定理。
假定X1,...Xn是独立同分布,均值为,方差为
.中心极限定理(CLT)表明:
的分布近似于均值为
,方差为
的正态分布。该定理非常引入瞩目,因为它除了要求存在均值和方差以外,再也没有其他要求了。
5.8 定理
中心极限定理(The Central Limit Theorem (CLT))。令X1,...Xn是均值为,方差为
的独立同分布。设
.那么
在分布上收敛于Z(正态分布)
换句话说,
解释:关于 Xn 的概率状态可以使用正态分布来近似。我们在近似的是概率状态,而不是随机变量本身。
除了,Zn在分布上收敛于N(0,1)以外,还有如下的几种格式,用来表示Zn的分布收敛于正态。他们都表示相同的事情。
5.9 例子
假如每分钟,程序的错误数服从均值为5的泊松分布。现有125个程序。令X1,...X125是这些程序的错误数。我们想要求
令,
.那么
中心极限定理告诉我们,近似于N(0,1).但,我们却很少知道
.在后面我们将通过如下的方式,来估算
:
这会导致下面的问题:如果我们用来代替
,中心极限定理还成立吗?答案是:yes
5.10 定理
假设跟CLT相同的条件,那么
你可能会好奇,这个正态近似的精度有多少?答案将在Berry-Esseen定理中给出
5.11 定理(The Berry-Esseen 不等式)
假定.那么
中心极限定理,也存在一个多元的版本
5.12 定理(多元中心极限定理(Multivariate central limit theorem))
令X1,...Xn是独立同分布的向量,其中Xi为:
均值μ为:
方差矩阵Σ。
令,其中
.那么
在概率上收敛于
5.5 Delta 方法
如果Yn的极限分布为正态分布,那么Delta方法提供了求的极限分布的方法,其中函数g是任一连续函数。
5.13 定理(Delta 方法)
假定:在分布上收敛于
,且g是一个可微函数,那么
在分布上收敛于N(0,1).
换句话说,,隐含
5.14 例子
设X1,..Xn是有限均值为μ,有限方差为σ的独立同分布。根据中心极限定理得在分布上收敛于N(0,1).令
.因此
,其中
.因为
.根据Delta方法得
Delta方法也有一个多元版本
5.15 定理
设是满足下面的随机向量序列:
在概率上收敛于
令,且
令为
在
处的值,且
的元素都不为0。那么
在分布上收敛于
5.16 例子
令是均值为
,方差为Σ的IID随机向量。令
,并定义
.因此
其中,
.根据中心极限定理
在分布上收敛于N(0,Σ)
现在,并且
因此在分布上收敛于
本章完
未翻译:文献注释,附录,课后作业