【高维统计N2】工具和方法

高维统计需要对随机变量进行估计和误差分析,其使用的工具和方法与传统统计有所差异。
统计学研究的内容涉及:

  1. 怎么估计
    a. 抽样出样本
    b. 参数估计:eg无偏估计 θ ^ → θ \hat\theta\rightarrow\theta θ^θ
    c. 模型分析
    d. 优化问题求解:梯度下降
  2. 估计的合理性
    a. 误差估计: ∣ ∣ θ ^ − θ ∣ ∣ ||\hat\theta-\theta|| ∣∣θ^θ∣∣

我们都知道用样本均值估计总体均值,样本协方差矩阵估计总体协方差矩阵,但是为什么能这样估计?估计的误差怎么衡量?这就是模型分析和误差估计要做的事情。
这篇note对后续所需要的随机变量估计涉及的不等式进行讨论,例如常用随机变量(sub-gaussian\sub-exponential)的不等式、推导不等式的所用工具和方法。

PartA–Basic tail and concentration bounds

什么是tail bounds,concentration bounds?

随机变量 x x x的值用概率大小来度量,实际应用往往需要估计随机变量处在某个区间的概率,tail bounds是估计 P ( ∣ x ∣ > t ) P(|x|>t) P(x>t),concentration bounds是估计 P ( ∣ x − μ ∣ ≥ t ) P(|x-\mu|\geq t) P(xμt)
在这里插入图片描述

A1. 常用的tail bounds

(1)markov不等式
在这里插入图片描述
(2)chebyshev不等式
在这里插入图片描述
(3)markov不等式的推广
在这里插入图片描述
(4)chernoff bound
从moment generating function角度,设 ϕ ( λ ) = E [ e λ ( X − μ ) ] \phi (\lambda)=\mathbb{E}[e^{\lambda (X-\mu)}] ϕ(λ)=E[eλ(Xμ)]
在这里插入图片描述
两边取对数,即得到chernoff bound:
在这里插入图片描述

example1-(gaussian tail bound)
在这里插入图片描述
抽象出具有这样upper deviation不等式的随机变量,即sub-gaussian随机变量

A2. sub-gaussian和sub-exponential的tail bounds

sub-gaussian

(1)sub-gaussian定义
在这里插入图片描述
(2)concentration inequality
sub-gaussian随机变量 X X X是满足upper deviation不等式的,那么 − X -X X是满足lower deviation不等式的,合起来就是concentration不等式:
在这里插入图片描述
(3)一些sub-gaussian的例子
example1–Rademacher variables
在这里插入图片描述
example2–Bounded random variables
在这里插入图片描述
(4)sub-gaussian的和----hoeffding bound
在这里插入图片描述
(5)sub-gaussian的等价定义方式

  • MGF
  • 任意sub-gaussian都能用高斯随机变量衡量
  • 控制moments
    在这里插入图片描述

比sub-gaussian条件宽松的随机变量–sub-exponential

(1)sub-exponential的定义
和sub-gaussian不同的是,sub-exponential只要求在某区间上满足不等式
在这里插入图片描述
(2)tail bound和concentration bound(bernstein不等式)
在这里插入图片描述
根据sub-exponential的定义,将估计MGF推广到估计 ( X − μ ) k (X-\mu)^k (Xμ)k,就是bernstein条件:
在这里插入图片描述
利用bernstein条件可以获得比hoeffding bound更紧的界:
在这里插入图片描述
(3)sub-exponential的和
X k X_k Xk是sub-exponential的,参数 ( γ k , α k ) (\gamma_k,\alpha_k) (γk,αk),那么 ∑ k = 1 n ( X k − μ k ) \sum_{k=1}^n(X_k-\mu_k) k=1n(Xkμk)也是sub-exponential的,参数为 ( γ ∗ , α ∗ ) (\gamma_*,\alpha_*) (γ,α),其中
在这里插入图片描述
tail bounds:
在这里插入图片描述
(4)sub-exponential的等价定义方式
在这里插入图片描述
(5)单边的bernstein不等式
在这里插入图片描述

∑ i = 1 n ( X i − μ i ) \sum_{i=1}^n (X_i-\mu_i) i=1n(Xiμi)推广到 f ( X ) f(X) f(X)的bounds
goal:设 f : R n → R f:\mathbb{R}^n \rightarrow \mathbb{R} f:RnR,获得 f ( X ) − E [ f ( X ) ] f(X)-\mathbb{E}[f(X)] f(X)E[f(X)]的界

(1)martingale
定义一个递增的 σ − \sigma- σ { F k } k = 1 ∞ \{\mathcal{F}_k\}_{k=1}^{\infty} {Fk}k=1(也叫filtration),设 { Y k } k = 1 ∞ \{Y_k\}_{k=1}^{\infty} {Yk}k=1 F k \mathcal{F}_k Fk上可测,则
在这里插入图片描述
D k = Y k − Y k − 1 D_k=Y_k-Y_{k-1} Dk=YkYk1为martingale序列

(2)一些例子
在这里插入图片描述
(3)martingale序列 D k D_k Dk的Concentration bounds
在这里插入图片描述
(4)利普希茨函数的bounds
在这里插入图片描述

PartB–Concentration of measure

得到tail bounds和concentration bounds的方法:

B1.entropy methods

(1) ϕ − \phi- ϕentropy
X ∼ P X\sim\mathbb{P} XP,凸函数 ϕ : R → R \phi:\mathbb{R}\rightarrow \mathbb{R} ϕ:RR,定义一个衡量随机变量可变性(扰动)的度量:
在这里插入图片描述
例子:
在这里插入图片描述
设MGF为 φ X ( λ ) = E [ e λ X ] \varphi_X(\lambda)=\mathbb{E}[e^{\lambda X}] φX(λ)=E[eλX],则entropy和MGF的关系:
在这里插入图片描述
(2)entropy与tail bounds
entropy是衡量随机变量可变性(扰动)的度量,那么限制entropy就等于给随机变量找bounds:

  • sub-gaussian
    在这里插入图片描述
  • sub-exponential在这里插入图片描述

B2. 几何方法

(1)concentration function
在这里插入图片描述
Q1:concentration function怎么得到concentration bound?
Q2:当 ϵ \epsilon ϵ变大,concentration function会如何变化,它趋向于0的速度如何?
在这里插入图片描述
在这里插入图片描述
(2)从几何到concentration bounds
在这里插入图片描述

B3. transportation cost方法

(1)wasserstein distance
度量空间 ( X , ρ ) (\mathcal{X},\rho) (X,ρ)上的两个概率分布 Q , P \mathbb{Q},\mathbb{P} Q,P的距离:
在这里插入图片描述
其中 ∣ ∣ f ∣ ∣ L i p ||f||_{Lip} ∣∣fLip是使得利普希茨条件成立的最小 L L L
在这里插入图片描述
(2)wasserstein distance的对偶定义
在这里插入图片描述
(3)KL散度
在这里插入图片描述
(4)Tensor for transportation cost
在这里插入图片描述

partC–大数定律

C1. 动机

累积分布函数

累计分布函数 F ( t ) = P ( X ≤ t ) F(t)=\mathbb{P}(X\leq t) F(t)=P(Xt), { X i } i = 1 n \{X_i\}_{i=1}^n {Xi}i=1n是从 F F F中抽的独立样本,用经验累积分布函数
在这里插入图片描述
估计 F F F,由强大数定理可知 F ^ n ( t ) → a.s F ( t ) \hat{F}_n(t)\xrightarrow{\text{a.s}} F(t) F^n(t)a.s F(t)(点点收敛);一致收敛是更为严格的收敛,对于用 γ ( F ^ n ) \gamma(\hat{F}_n) γ(F^n)估计 γ ( F ) \gamma(F) γ(F)提供理论支持

在这里插入图片描述
γ ( F ^ n ) \gamma(\hat{F}_n) γ(F^n)估计 γ ( F ) \gamma(F) γ(F)的例子:
在这里插入图片描述

一般函数

在这里插入图片描述
随机变量 ∣ ∣ P n − P ∣ ∣ F ||P_n-P||_{\mathscr{F}} ∣∣PnPF对于:

  • empirical risk minimization
  • decision-theoretic
    十分关键

empirical risk
在这里插入图片描述
population risk
在这里插入图片描述
excess risk
在这里插入图片描述

C2. Rademacher complexity

(1)定义empirical Rademacher complexity
在这里插入图片描述
在这里插入图片描述
它衡量了 ( f ( X 1 ) , . . . , f ( X n ) ) (f(X_1),...,f(X_n)) (f(X1),...,f(Xn))与噪声 ( ϵ 1 , . . . , ϵ n ) (\epsilon_1,...,\epsilon_n) (ϵ1,...,ϵn)的最大相关程度

对任意的有界函数集合 F \mathscr{F} F R n ( F ) = o ( 1 ) \mathcal{R}_n(\mathscr{F})=o(1) Rn(F)=o(1)即为Glivenko–Cantelli property

在这里插入图片描述
求分布的误差可转换为求Rademacher complexity的上界

  • 有限函数类:simple union bound methods
  • 无线函数类:metric entropy、chaining arguments

method1—simple union bound methods

x 1 n = ( x 1 , . . . , x n ) x_1^n=(x_1,...,x_n) x1n=(x1,...,xn)为点集,集合 F ( x 1 n ) = { ( f ( x 1 ) , . . . , f ( x n ) ) ∣ f ∈ F } \mathscr{F}(x_1^n)=\{(f(x_1),...,f(x_n))|f\in\mathscr{F}\} F(x1n)={(f(x1),...,f(xn))fF}的“大小”提供了一种依靠样本的度量 F \mathscr{F} F的方式:

  • F ( x 1 n ) \mathscr{F}(x_1^n) F(x1n)对所有样本都是有限的个数,那么大小就是cardinality
  • 我们关系cardinality关于n成多项式增长的函数集

在这里插入图片描述
这类函数集的Rademacher complexity上界:
在这里插入图片描述
哪些函数满足polynomial discrimination

  1. Classical Glivenko–Cantelli
  2. Vapnik–Chervonenkis (VC) dimension

在这里插入图片描述
如果 ν ( F ) \nu(\mathscr{F}) ν(F)有限,则称 F \mathscr{F} F为VC类;任意有限VC类都满足 polynomial discrimination(degree最大为VC dim)
在这里插入图片描述

method2— Metric entropy

(1)覆盖数的定义
在这里插入图片描述
log ⁡ N ( δ ; T , ρ ) \log N(\delta;\mathbb{T},\rho) logN(δ;T,ρ)为metric entropy

在这里插入图片描述
以上用了不同的方法获得上下界,packing number可以把这两种方法统一
在这里插入图片描述
packing number和覆盖数的关系:
在这里插入图片描述
(2)使得metric entropy满足的几何性质
在这里插入图片描述
(3)随机过程

metric entropy描述的是确定的
随机过程的描述 { X θ , θ ∈ T } \{X_\theta,\theta\in\mathbb{T}\} {Xθ,θT}往往依赖指标集 T \mathbb{T} T的结构

考虑两个方向的问题:

  1. 给定 T \mathbb{T} T的结构,随机过程的表现如何
  2. 给定随机过程,指标集 T \mathbb{T} T会有什么性质

12相互作用的例子:Gaussian and Rademacher complexity

在这里插入图片描述
两者关系:
在这里插入图片描述
(4)更一般的:sub-Gaussian processes
在这里插入图片描述
upper bound
在这里插入图片描述
tighter bound
在这里插入图片描述
lower bound
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值