【高维统计N2】工具和方法

最新推荐文章于 2023-06-17 23:06:37 发布

刘志赫的猫

最新推荐文章于 2023-06-17 23:06:37 发布

阅读量523

点赞数 2

分类专栏： math # 高维统计文章标签：机器学习人工智能概率论

本文链接：https://blog.csdn.net/weixin_44935198/article/details/129777384

版权

math 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

高维统计

3 篇文章 0 订阅

订阅专栏

高维统计需要对随机变量进行估计和误差分析，其使用的工具和方法与传统统计有所差异。
统计学研究的内容涉及：

怎么估计
a. 抽样出样本
b. 参数估计：eg无偏估计 $\hat\theta\rightarrow\theta$
c. 模型分析
d. 优化问题求解：梯度下降
估计的合理性
a. 误差估计: $||\hat\theta-\theta||$

我们都知道用样本均值估计总体均值，样本协方差矩阵估计总体协方差矩阵，但是为什么能这样估计？估计的误差怎么衡量？这就是模型分析和误差估计要做的事情。
这篇note对后续所需要的随机变量估计涉及的不等式进行讨论，例如常用随机变量（sub-gaussian\sub-exponential)的不等式、推导不等式的所用工具和方法。

PartA–Basic tail and concentration bounds

什么是tail bounds，concentration bounds?

随机变量 $x$ 的值用概率大小来度量，实际应用往往需要估计随机变量处在某个区间的概率，tail bounds是估计 $P (∣ x ∣ > t)$ ，concentration bounds是估计 $P(|x-\mu|\geq t)$
在这里插入图片描述

A1. 常用的tail bounds

（1）markov不等式
在这里插入图片描述
（2）chebyshev不等式

（3）markov不等式的推广

（4）chernoff bound
从moment generating function角度，设 $\phi (\lambda)=\mathbb{E}[e^{\lambda (X-\mu)}]$

两边取对数，即得到chernoff bound：

example1-(gaussian tail bound)
在这里插入图片描述
抽象出具有这样upper deviation不等式的随机变量，即sub-gaussian随机变量

A2. sub-gaussian和sub-exponential的tail bounds

sub-gaussian

（1）sub-gaussian定义
在这里插入图片描述
（2）concentration inequality
sub-gaussian随机变量 $X$ 是满足upper deviation不等式的，那么 $- X$ 是满足lower deviation不等式的，合起来就是concentration不等式：

（3）一些sub-gaussian的例子
example1–Rademacher variables

example2–Bounded random variables
在这里插入图片描述
（4）sub-gaussian的和----hoeffding bound

（5）sub-gaussian的等价定义方式

MGF
任意sub-gaussian都能用高斯随机变量衡量
控制moments

比sub-gaussian条件宽松的随机变量–sub-exponential

（1）sub-exponential的定义
和sub-gaussian不同的是，sub-exponential只要求在某区间上满足不等式
在这里插入图片描述
（2）tail bound和concentration bound（bernstein不等式）

根据sub-exponential的定义，将估计MGF推广到估计 $(X-\mu)^k$ ，就是bernstein条件：

利用bernstein条件可以获得比hoeffding bound更紧的界：

（3）sub-exponential的和
$X_k$ 是sub-exponential的，参数 $(\gamma_k,\alpha_k)$ ,那么 $\sum_{k=1}^n(X_k-\mu_k)$ 也是sub-exponential的，参数为 $(\gamma_*,\alpha_*)$ ,其中
在这里插入图片描述
tail bounds:

（4）sub-exponential的等价定义方式

（5）单边的bernstein不等式

从 $\sum_{i=1}^n (X_i-\mu_i)$ 推广到 $f (X)$ 的bounds
goal:设 $f:\mathbb{R}^n \rightarrow \mathbb{R}$ ，获得 $f(X)-\mathbb{E}[f(X)]$ 的界

（1）martingale
定义一个递增的 $\sigma-$ 域 $\{\mathcal{F}_k\}_{k=1}^{\infty}$ (也叫filtration)，设 $\{Y_k\}_{k=1}^{\infty}$ 在 $\mathcal{F}_k$ 上可测，则
在这里插入图片描述
$D_k=Y_k-Y_{k-1}$ 为martingale序列

（2）一些例子
在这里插入图片描述
（3）martingale序列 $D_k$ 的Concentration bounds

(4）利普希茨函数的bounds

PartB–Concentration of measure

得到tail bounds和concentration bounds的方法：

B1.entropy methods

（1） $\phi-$ entropy
设 $X\sim\mathbb{P}$ ，凸函数 $\phi:\mathbb{R}\rightarrow \mathbb{R}$ ，定义一个衡量随机变量可变性（扰动）的度量：
在这里插入图片描述
例子：

设MGF为 $\varphi_X(\lambda)=\mathbb{E}[e^{\lambda X}]$ ，则entropy和MGF的关系：

（2）entropy与tail bounds
entropy是衡量随机变量可变性（扰动）的度量，那么限制entropy就等于给随机变量找bounds:

sub-gaussian
sub-exponential

B2. 几何方法

（1）concentration function
在这里插入图片描述
Q1：concentration function怎么得到concentration bound？
Q2：当 $\epsilon$ 变大，concentration function会如何变化，它趋向于0的速度如何?

（2）从几何到concentration bounds

B3. transportation cost方法

（1）wasserstein distance
度量空间 $(\mathcal{X},\rho)$ 上的两个概率分布 $\mathbb{Q},\mathbb{P}$ 的距离：
在这里插入图片描述
其中 $f||_{Lip}$ 是使得利普希茨条件成立的最小 $L$

（2）wasserstein distance的对偶定义

（3）KL散度

（4）Tensor for transportation cost

partC–大数定律

C1. 动机

累积分布函数

累计分布函数 $F(t)=\mathbb{P}(X\leq t)$ , ${X_i\}_{i=1}^n$ 是从 $F$ 中抽的独立样本，用经验累积分布函数
在这里插入图片描述
估计 $F$ ，由强大数定理可知 $\hat{F}_n(t)\xrightarrow{\text{a.s}} F(t)$ （点点收敛）；一致收敛是更为严格的收敛，对于用 $\gamma(\hat{F}_n)$ 估计 $\gamma(F)$ 提供理论支持