UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理

UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理

John-Lindenstrauss引理

这一讲我们介绍一个Lipschitz函数法处理随机向量的技术的应用。假设在一个机器学习问题中,我们有 N N N个样本,每个样本有 n n n个feature,但是 n n n非常大,直接用这么多feature训练模型不但浪费算力而且影响模型精度,所以我们想做一个投影 P P P,把这组 n n n维的feature投影到一个 m m m维的子空间,我们希望投影前后任意两个样本点的差别不会被放大或者缩小,用数学来描述就是假设 x , y x,y x,y这两个 n n n维向量分别表示一个样本,则给定一个很小的正数 ϵ \epsilon ϵ,使得
( 1 − ϵ ) ∥ x − y ∥ 2 ≤ ∥ P x − P y ∥ 2 ≤ ( 1 + ϵ ) ∥ x − y ∥ 2 (1-\epsilon)\left\| x-y \right\|_2 \le\left\| Px-Py \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2 (1ϵ)xy2PxPy2(1+ϵ)xy2

其中 P x , P y ∈ R m Px,Py \in \mathbb{R}^m Px,PyRm,站在理论机器学习研究者的角度,我们比较关心的一个问题是最小能把feature的维数压缩到多少?J-L引理认为基于Haar测度的随机投影下最小的维数是 O ( ln ⁡ N ) O(\ln N) O(lnN)


John-Lindenstrauss引理
X \mathcal{X} X表示 N N N个样本, X ⊂ R n \mathcal{X} \subset \mathbb{R}^n XRn ∀ ϵ > 0 \forall \epsilon>0 ϵ>0 ∃ C > 0 \exists C>0 C>0, ∀ m ≥ ( C / ϵ 2 ) log ⁡ N \forall m \ge (C/\epsilon^2) \log N m(C/ϵ2)logN,如果 E ∼ U n i f ( G n , m ) E \sim Unif(G_{n,m}) EUnif(Gn,m),存在random projection
Q = n m P E Q = \sqrt{\frac{n}{m}}P_E Q=mn PE

使得下面的事件概率不小于 1 − 2 e − c ϵ 2 m 1-2e^{-c\epsilon^2m} 12ecϵ2m
( 1 − ϵ ) ∥ x − y ∥ 2 ≤ ∥ Q x − Q y ∥ 2 ≤ ( 1 + ϵ ) ∥ x − y ∥ 2 (1-\epsilon)\left\| x-y \right\|_2 \le\left\| Qx-Qy \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2 (1ϵ)xy2Qx

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值