![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
高维统计
文章平均质量分 92
MATH 567A/B笔记
一个不愿透露姓名的孩子
这个作者很懒,什么都没留下…
展开
-
高维统计理论 非参数回归模型的误差分析基础
之前两篇介绍了[RKHS]及其经典应用[kernel ridge regression],这一篇讨论一般的非参数最小二乘模型的理论性质。原创 2022-08-14 07:09:26 · 714 阅读 · 0 评论 -
高维统计理论 Gauss与Rademacher复杂度
对于随机过程$\{X_{\theta},\theta \in T\}$,其中$T$是随机过程的指标集,给定$\theta \in T$时,$X_{\theta}$是一个随机变量。在本篇中,我们感兴趣的问题是如何利用已知的随机过程研究指标集$T$的性质。原创 2022-07-21 04:23:35 · 827 阅读 · 1 评论 -
Kernel Ridge Regression理论与R语言实践
Kernel Ridge Regression(KRR)是再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)在机器学习中的一个经典应用,上一篇介绍了RKHS,这一篇我们以KRR为例介绍RKHS在机器学习中的应用。原创 2022-07-19 14:51:01 · 478 阅读 · 0 评论 -
再生核希尔伯特空间:Hilbert Space与RKHS基础
统计中的很多问题都需要在函数空间上做优化,比如非参数回归、密度估计等。而Hilbert空间不但包含了所有在这类统计问题中常用的函数,并且具有良好的分析、几何性质,所以我们经常用Hilbert空间作为统计问题中的函数空间。其中一种被广泛应用的Hilbert空间是再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS),这个名称来自它本身的特征——由再生核定义的希尔伯特空间。...原创 2022-07-19 06:32:14 · 1024 阅读 · 0 评论 -
高维统计理论 估计量的Minimax误差分析 基础理论
统计中一个很重要的问题是计算估计量的误差,我们总是希望得到误差更小的估计量。比如参数估计中的UMVUE、线性模型中的BLUE等概念,都涉及最小误差的概念;而C-R不等式更是直接给出了估计量方差的下界。在高维统计中,我们也希望建立类似的计算或者近似估计量误差的方法。这类方法根据model-dependence可以分为两种,计算某一个或者某一种统计模型估计量误差的特殊方法以及计算统计模型估计量误差的一般性方法。本篇文章感兴趣的是第二种。...原创 2022-07-19 03:42:20 · 887 阅读 · 0 评论 -
高维统计学 第一章读书笔记 高维数据与大数定律和中心极限定理
这一篇以简单的正态均值估计为例浅谈一下传统统计理论中最为重要的大数定律与中心极限定理在高维数据问题中可能遇到的问题。原创 2022-06-21 13:00:00 · 1085 阅读 · 0 评论 -
高维统计学 第一章读书笔记 传统统计方法在高维数据中面临的挑战
本篇是高维统计学第一章的读书笔记,以LDA为例总结了经典统计理论在高维问题中失败,并介绍了高维理论解决高维问题的思想。限于篇幅问题,本篇只总结理论结果,模拟实验与代码在下一篇呈现。...原创 2022-06-20 05:59:12 · 997 阅读 · 1 评论 -
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介
UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent原创 2021-07-10 06:43:25 · 204 阅读 · 0 评论 -
UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient
UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速梯度下降与Proximal gradient descent都是一阶方法,也就是借助目标函数的某种一阶导进行迭代找最小值的方法,但是一阶方法只利用了梯度信息,也就是单调性的信息(kkk次迭代后误差为O(1/k)O(1/k)O(1/k),而误差的下界为O(1/k2)O(1/k^2)O(1/k2),所以一阶方法还有可以提高的空间),一般认为凸度的信息可以用修正一阶方法减少迭代次数,提高收敛速度,所以到今天也发展出了很多second原创 2021-07-09 01:05:34 · 363 阅读 · 1 评论 -
UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent
UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient DescentProximal Gradient Descent的公式推导Proximal OperatorIndicator functionLASSONuclear Norm对于平滑的凸函数,写一个梯度下降的求最值的算法非常简单(上一讲介绍梯度下降但还在施工中);但非平滑的函数求不出梯度,这时可以用Proximal Gradient Descent代替梯度下降求它的最值。Proximal Gradi原创 2021-07-06 04:28:17 · 268 阅读 · 1 评论 -
UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP
UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIPLow-rank matrix completion的模型是rank minimization,上一讲我们介绍了rank minimization与nuclear norm minimization的等价性,这一讲我们介绍基于无噪声的数据用nuclear norm minimizationminΘ ∥Θ∥∗s.t. y=X(Θ),X:Rd1×d2→Rn\min_{\Thet原创 2021-06-29 04:01:28 · 263 阅读 · 0 评论 -
UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm
UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm上一讲我们已经提到了用rank-minimization对参数矩阵进行估计的建模方法,这一讲我们讨论无噪声情况下的rank-minimization问题:minΘ rank(Θ)s.t. y=X(Θ)\min_{\Theta} \ \ rank(\Theta) \\ s.t. \ \ y=\mathcal{X}(\Theta)Θm原创 2021-06-18 07:28:41 · 517 阅读 · 0 评论 -
UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介
UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介例 在推荐系统中,Netflix data是非常经典的数据集。考虑它的电影评分数据,用矩阵的每一行表示每一个用户(假设有d1d_1d1个用户),每一列表示每一部电影(假设有d2d_2d2部电影),矩阵的第iii行第jjj列表示第iii个用户对第jjj部电影的评分,记这个矩阵为YYY。目前世界上大概两三百万部电影,即使每个用户每天给24部评分一年365天无休也要三百多年才能评完分,所以这个矩阵中有巨多原创 2021-06-17 02:11:40 · 464 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性Prediction ErrorVariable Selection ConsistencyPrediction Error前两讲介绍了LASSO估计误差的一些结果,这一讲介绍LASSO的预测误差,在统计学习理论中,我们定义∥Ax^−Ax∗∥\left\| A\hat x - Ax^*\right\|∥Ax^−Ax∗∥为模型的预测误差,对于LASSO而言,AAA是design matrix,x^\hat x原创 2021-06-12 00:20:51 · 536 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复6 随机设计矩阵下LASSO的估计误差上一讲我们推导了noisy setting下LASSO估计误差的阶O(slogd/n)O(\sqrt{s\log d/n})O(slogd/n),但它的假设是design matrix为常矩阵;这一讲我们放宽假设,推导随机设计矩阵下LASSO的估计误差。定理 假设A∼Rn×dA \sim \mathbb{R}^{n \times d}A∼Rn×d,并且它的行向量iid服从N(0,Σ)N(0,\Sigma)N(原创 2021-06-09 03:22:58 · 335 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
UA MATH567 高维统计专题1 稀疏信号及其恢复5 带噪声的稀疏信号与LASSO前四讲算是把无噪声的情况讨论得差不多了,这一讲开始我们讨论含噪声的稀疏信号恢复问题。假设observations是y=Ax∗+wy=Ax^*+wy=Ax∗+w其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix,x∗∈Rdx^* \in \mathbb{R}^dx∗∈Rd是true signal,www是noise;现在的问题是我们知道yyy和AAA,想要原创 2021-06-09 00:41:21 · 650 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent
UA MATH567 高维统计专题1 稀疏信号及其恢复4 Basis Pursuit的算法 Projected Gradient Descent前三讲完成了对sparse signal recovery的modelling(即L0L_0L0-minimization建模,但考虑到它很难用于实际计算,再用L1L_1L1-minimization作为L0L_0L0-minimization的convex relaxation,并且讨论了二者full recovery的性质),这一讲介绍能实际用于求解L1原创 2021-06-08 04:44:03 · 700 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence与RIP简介
UA MATH567 高维统计专题1 稀疏信号及其恢复3 Coherence简介Pairwise in CoherenceMutual Coherence前两讲介绍了L0-minimizationmin ∥x∥0s.t. y=Ax\min \ \ \left\| x\right\|_0 \\ s.t. \ \ y = Axmin ∥x∥0s.t. y=Ax以及作为它的convex relaxation的L1-原创 2021-06-08 04:43:36 · 381 阅读 · 0 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation
UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexationL1L_1L1-norm minimizationL1L_1L1-norm是L0L_0L0-norm的凸包络L1L_1L1-norm minimization的full recovery上一讲我们在无噪声的设定下讨论了稀疏信号的恢复,假设yyy是我们对稀疏信号的测量,y=Axoy=Ax_oy=Axo,系数AAA已知,目标是从测量中还原出信号xox_oxo,一种可行的操原创 2021-06-02 06:31:27 · 375 阅读 · 3 评论 -
UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimization
UA MATH567 高维统计专题1 稀疏信号及其恢复1 L0-norm minimizationL0L^0L0-normL0L_0L0-norm minimizationExhaustive SearchL0L_0L0-norm minimization的性质L0L_0L0-norm minimization是NP-hard问题这个专题我们讨论sparse signal recovery,作为这个专题的开头,我们先简单介绍一下sparse vector的norm;熟悉DSP的同学应该比较清楚,用v原创 2021-02-05 01:37:48 · 757 阅读 · 0 评论 -
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理n(Xˉ−μ)→dN(0,Id)\sqrt{n}(\bar X - \mu) \to_d N(0,I_d) n(Xˉ−μ)→dN(0,Id)这说明n∥Xˉ−μ∥22→dχd2n\left\| \bar X - \mu \right\|_2^2 \to_d \chi^2_dn∥∥Xˉ−μ∥∥22→dχd2,∥Xˉ−μ∥22∼dn→α>原创 2021-02-02 03:55:17 · 709 阅读 · 3 评论 -
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold稀疏向量的soft-threshold与hard-threshold近似引入hard-threshold的线性判别分析在上一篇的末尾,我们谈到了经典统计与高维统计的区别,在高维统计中,information is sparse in features,即并不是每个特征都是一样重要的,重要的特征占比非常小,这种特性被称为sparsity。不论是为了模型能处理高维问题还是为了提高计算效率,我们都需要去原创 2021-01-29 03:27:09 · 640 阅读 · 1 评论 -
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——线性判别中协方差估计的Marcenko-Pastur规则原创 2021-01-22 04:23:13 · 995 阅读 · 0 评论 -
UA MATH567 高维统计 专题0 为什么需要高维统计理论?——以线性判别分析为例
UA MATH567 高维统计 专题0 多元统计方法在高维时会出什么问题?——以线性判别分析为例线性判别分析基础线性判别分析基础我们回顾一下二元假设检验问题,它的目标是判断某一个observation x∈Rdx \in \mathbb{R}^dx∈Rd到底属于总体P1P_1P1还是P2P_2P2,在统计理论中,Neyman-Pearson引理说明了似然比检验是最优检验,也就是基于logP2(x)P1(x)\log \frac{P_2(x)}{P_1(x)}logP1(x)P2(x)导出的检原创 2021-01-21 04:31:27 · 500 阅读 · 1 评论 -
UA MATH567 高维统计 专题1 Supervised PCA Regression概述
UA MATH567 高维统计 专题1 Supervised PCA Regression概述相关结果Supervised PCA Regression相关结果考虑经典的回归问题y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In)y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n)y=Xβ+ϵ,X∈Rp,ϵ∼N(0,σ2In),根据Gauss-Markov定理,在满足定理的假设时,OLS估计量具有非常好的渐近性质,但是当ppp原创 2021-01-21 02:45:45 · 422 阅读 · 0 评论 -
UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:DNA序列突变点侦测的统计量及假设检验
UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:拐点侦测的统计量及假设检验整数环上的区间作为随机变量的下标最大值的概率不等式应用:拐点侦测整数环上的区间作为随机变量的下标最大值的概率不等式应用:拐点侦测...原创 2021-01-14 05:10:16 · 293 阅读 · 0 评论 -
稀疏数据分析:马蹄估计量及其理论性质
稀疏数据分析:马蹄估计量及其理论性质基本框架half-Cauchy分布为什么它叫马蹄估计量后验均值、shrinkage与κ\kappaκθ\thetaθ的边缘先验分布的阶马蹄估计的一致性收敛速率Clarke-Barron(1990)引理马蹄估计的最优收敛速率这是对The horseshoe estimator for sparse signal这篇论文的回顾,这篇论文在Modern Bayesian statistics与Bayesian Machine Learning领域比较重要,它提出了一种新的先验原创 2021-01-07 08:22:48 · 2193 阅读 · 0 评论 -
UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声
UA MATH567 高维统计IV Lipschitz组合11 社区发现算法容许的最大随机噪声我们在上一部分介绍随机矩阵的时候介绍了stochastic blocking model以及community detection的spectral clustering算法。假设这个网络有nnn个节点,网络中有两个社区,它们的规模相当,各拥有n/2n/2n/2个节点,记这两个社区为C1,C2C_1,C_2C1,C2,我们用G(n,p,q)G(n,p,q)G(n,p,q)表示这个随机网络,其中ppp表示某条原创 2021-01-05 07:37:32 · 245 阅读 · 2 评论 -
UA MATH567 高维统计IV Lipschitz组合10 随机矩阵的Bernstein不等式
UA MATH567 高维统计IV Lipschitz组合10 随机矩阵的Bernstein不等式原创 2021-01-05 06:59:00 · 433 阅读 · 0 评论 -
UA MATH567 高维统计IV Lipschitz组合9 矩阵函数、半正定序与迹不等式
UA MATH567 高维统计IV Lipschitz组合9 矩阵函数、半正定序与迹不等式矩阵函数半正定序(positive semi-definite order, PSD order)迹不等式这一讲的目标是提供一些矩阵分析的工具,因为下一讲我们要尝试导出随机矩阵的Bernstein不等式。矩阵函数假设XXX是对称矩阵,则XXX的所有特征值都是实数,我们可以写出XXX的谱分解为X=∑i=1nλiuiuiTX = \sum_{i=1}^n \lambda_i u_iu_i^TX=i=1∑nλiu原创 2021-01-05 06:12:39 · 396 阅读 · 3 评论 -
UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理
UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理这一讲我们介绍一个Lipschitz函数法处理随机向量的技术的应用。假设在一个机器学习问题中,我们有NNN个样本,每个样本有nnn个feature,但是nnn非常大,直接用这么多feature训练模型不但浪费算力而且影响模型精度,所以我们想做一个随机投影PPP,把这组nnn维的feature投影到一个mmm维的子空间,我们希望投影前后任意两个样本点的差别不会被放大或者缩小,用数学来描述就是假设x原创 2021-01-05 05:34:41 · 305 阅读 · 3 评论 -
UA MATH567 高维统计IV Lipschitz组合7 Grassman流形与Haar测度
UA MATH567 高维统计IV Lipschitz组合7 Grassman流形与Haar测度原创 2021-01-05 04:41:52 · 572 阅读 · 3 评论 -
UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布
UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布原创 2021-01-04 09:48:39 · 311 阅读 · 0 评论 -
UA MATH567 高维统计IV Lipschitz组合3 高斯分布的Lipschitz函数
UA MATH567 高维统计IV Lipschitz组合3 高斯分布的Lipschitz函数首先我们在欧氏空间(Rn,B(Rn))(\mathbb{R}^n,\mathcal{B}(\mathbb{R}^n))(Rn,B(Rn))上建立高斯概率测度γn\gamma_nγn,满足∀B∈B(Rn)\forall B \in \mathcal{B}(\mathbb{R}^n)∀B∈B(Rn),γn(B)=∫B1(2π)n/2e−∥x∥222dx\gamma_n(B) = \int_B \frac{1}{(原创 2021-01-04 07:48:43 · 365 阅读 · 0 评论 -
UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数 Isoperimetric不等式
UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数这一讲我们先介绍最简单的高维分布,也就是球面分布的Lipschitz函数的concentration。我们在上上部分随机向量第三讲介绍过这个分布,X∼Unif(nSn−1)X \sim Unif(\sqrt{n}S^{n-1})X∼Unif(nSn−1),其中Sn−1S^{n-1}Sn−1表示nnn维空间中的单位球面,这个符号说明XXX在半径在n\sqrt{n}n的球面上原创 2021-01-04 07:21:40 · 352 阅读 · 0 评论 -
UA MATH567 高维统计IV Lipschitz组合1 Lipschitz函数
UA MATH567 高维统计IV Lipschitz组合1 Lipschitz函数高维统计的第二部分与第三部分分别讨论了基于亚高斯性导出的随机向量与随机矩阵的concentration inequality,这条推导路径需要独立性的假设;在第一部分的第十二讲我们介绍过McDiarmid不等式,它给出了比内积、范数更广义的Lipschitz组合的concentration inequality,尽管我们当时没有做深入讨论,使用Lipschitz的假设可以替换独立性的假设,进一步讨论随机向量与随机矩阵在没有原创 2021-01-03 09:26:51 · 621 阅读 · 0 评论 -
UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类问题的样本量需求计算
UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类的样本量如果XXX是零均值的随机变量,则Σ=EXXT\Sigma = EXX^TΣ=EXXT,假设{Xi}i=1m\{X_i\}_{i=1}^m{Xi}i=1m是XXX的一组样本,一种常用的协方差的估计是Σ^=1m∑i=1mXiXiT\hat \Sigma = \frac{1}{m}\sum_{i=1}^m X_iX^T_iΣ^=m1i=1∑mXiXiT假设XXX的四阶矩有限,则根据弱大数定律,Σ^→L原创 2021-01-03 05:18:14 · 518 阅读 · 2 评论 -
UA MATH567 高维统计III 随机矩阵9 具有亚高斯行向量的亚高斯矩阵
UA MATH567 高维统计III 随机矩阵5 随机矩阵的奇异值上一讲我们讨论了随机矩阵的范数,范数其实是矩阵空间到实数的映射,与范数类似的矩阵空间到实数的映射还有奇异值,因此我们也可以研究随机矩阵的奇异值的尾部概率行为。假设AAA是一个m×nm \times nm×n的随机矩阵,它的每一行AiA_{i}Ai是互相独立的零均值各向同性的亚高斯随机向量,关于它的奇异值有下面的结论随机矩阵的奇异值 K=maxi∥Ai∥ψ2K=\max_{i}\left\| A_{i} \right\|_{\psi_原创 2021-01-03 04:44:02 · 688 阅读 · 0 评论 -
UA MATH567 高维统计II 随机向量8 图的Max-cut问题 0.5近似算法的运行时间分析
UA MATH567 高维统计II 随机向量8 图的Max-cut问题 0.5近似算法的运行时间分析我们之前讨论了图的max-cut问题的0.5近似算法,也就是给定一张图,按掷硬币的概率决定是否切开一条边,这样的算法平均能切开一半的边:CUT(G,x)=12∑xixj=−1Aij=14∑i,jAij(1−xixj)=14∑i,jAij−14∑i,jAijxixjCUT(G,x)=\frac{1}{2}\sum_{x_ix_j=-1}A_{ij} = \frac{1}{4}\sum_{i,j}A_{ij}原创 2021-01-01 06:35:22 · 256 阅读 · 1 评论 -
UA MATH567 高维统计III 随机矩阵8 社区发现 Spectral Clustering的理论分析
UA MATH567 高维统计III 随机矩阵8 社区发现 Spectral Clustering的理论分析上一讲我们完成了Stochastic Block Model与社区发现问题的建模,并描述了目标:Community detection in networks的目标是给定一个某个随机矩阵的样本数据集,要还原随机矩阵的期望的特征向量。同时我们明确了算法分析的基本方法是摄动方法,这里描述一个大致思路:我们对社区发现算法进行理论分析的目的是说明这样的算法能够提供一个一致的、误差可以被控制的输出,也就是要原创 2021-01-01 06:20:00 · 558 阅读 · 1 评论