【流行学习】局部保持投影(Locality Preserving Projections)

一、前言

局部保持投影算法(LPP)主要是通过线性近似LE(Laplacian Eigenmaps),想保留的是高维中的局部信息

二、主要步骤

具体步骤如下所示

1.确定LPP的目标函数 min ⁡ 1 2 ∑ i , j ( y i − y j ) 2 s i j \min \frac{1}2\sum_{i, j}(y_{i}-y_{j})^{2} s_{i j} min21i,j(yiyj)2sij

其中 y i y_i yi表示的是降维后的任意数据点 i i i y j y_j yj表示的是降维后的任意数据点不包含 i i i
其中 s i j s_{ij} sij表示的是原始空间中 i , j i,j i,j之间的距离权重系数组成的矩阵。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高, 采用全连接法高斯核计算公式如下:
s i j = e − ∥ x i − x j ∥ 2 2 2 σ 2 s_{i j}=e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{2 \sigma^2}} sij=e2σ2xixj22
2.目标函数优化

1 2 ∑ i = 1 n ∑ j = 1 n ( y i − y j ) 2 s i j = 1 2 ∑ i = 1 n ∑ j = 1 n ( y i 2 − 2 y i y j + y j 2 ) s i j = ∑ i = 1 n D i i y i 2 − ∑ i = 1 n ∑ j = 1 n y i y j s i j = Y T L Y \begin{aligned} &\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}-y_{j}\right)^{2} s_{i j} \\ &=\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}^2-2 y_{i} y_{j}+y_{j}^2\right) s_{i j} \\ &= \sum_{i=1}^{n} D_{i i} y_{i}^2- \sum_{i=1}^{n} \sum_{j=1}^{n} y_{i} y_{j} s_{i j} \\ &=Y^{T} L Y \end{aligned} 21i=1nj=1n(yiyj)2sij=21i=1nj=1n(yi22yiyj+yj2)sij=i=1nDiiyi2i=1nj=1nyiyjsij=YTLY
其中 S S S 是图的邻接矩阵,对角矩阵 D D D 是图的度矩阵( D i i = ∑ j = 1 n s i j D_{ii}=\sum_{j=1}^{n} s_{i j} Dii=j=1nsij ), L = D − S L=D-S L=DS 成为图的拉普拉斯矩阵。

假设 α α α是变换矩阵,令 Y T = W T X Y^T=W^TX YT=WTX

则目标函数转换为:
1 2 ∑ i = 1 n ∑ j = 1 n ( y i − y j ) 2 W i j = W T X L X T W \begin{aligned} &\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}-y_{j}\right)^{2} W_{i j} \\ &= W^TXLX^TW \end{aligned} 21i=1nj=1n(yiyj)2Wij=WTXLXTW
该目标存在平凡零解 W = O m ∗ d W = O_{m ∗ d} W=Omd,此时L取最小值0,出现维度坍缩,所有样本映射到同一个点上,此解无意义

当W不取零矩阵时,由于没有添加尺度约束,在降维子空间一定(组成基向量方向一致)情况下,当尺度不断变小时,目标L会同时变小,无限趋于0,不存在最小值

因此,考虑对最小化目标变形为:
Y T L Y Y T D Y = W T X L X T W W T X D X T W \frac{Y^TLY}{Y^TDY}=\frac{W^TXLX^TW}{W^TXDX^TW} YTDYYTLY=WTXDXTWWTXLXTW
为了防止消除任意的缩放因子(为了防止过拟合的现象),添加尺度归一条件:
Y T D Y = 1 → α T X D X T α = 1 Y^TDY=1\to α^TXDX^Tα=1 YTDY=1αTXDXTα=1

变换后的拉普拉斯特征映射优化的目标函数如下:
arg min ⁡ W W T X L X T W ,  s.t.  W T X D X T W = I \argmin_{W} W^TXLX^TW, \quad \text { s.t. } W^TXDX^TW=I WargminWTXLXTW, s.t. WTXDXTW=I

其中限制条件 s . t . W T X D X T W = I { s.t. } W^TXDX^TW=I s.t.WTXDXTW=I 保证优化问题有解。

3.拉格朗日乘子法求解:
L = W T X L X T W + Λ ( W T X D X T W − I ) ∂ L ∂ W = 2 X L X T W − 2 X D X T W Λ = 0 ∴ X L X T W = X D X T W Λ ( X D X T ) − 1 X L X T W = W Λ \begin{aligned} &L=W^TXLX^TW+\Lambda(W^TXDX^TW-I)\\ &\frac{\partial L}{\partial W}=2XLX^TW−2XDX^TWΛ=0\\\\ &\therefore XLX^TW=XDX^TWΛ\\ &(XDX^T)^{−1}XLX^TW=WΛ \end{aligned} L=WTXLXTW+Λ(WTXDXTWI)WL=2XLXTW2XDXTWΛ=0XLXTW=XDXTWΛ(XDXT)1XLXTW=WΛ
W W W ( X D X T ) − 1 X L X T W (XDX^T)^{−1}XLX^TW (XDXT)1XLXTW的特征向量作为列向量构成,且为了最小化目标函数,选取的特征向量应该是最小m个特征值对应的特征向量降维后的结果输出。

变换矩阵 W = [ w 1 , w 2 , . . . , w m ] W = [ w_1,w_2 , . . . , w_m ] W=[w1,w2,...,wm] ( X D X T ) − 1 X L X T W (XDX^T)^{−1}XLX^TW (XDXT)1XLXTW最小m个特征向量构成

三、LPP与PCA区别

3.1. PCA的核心是通过投影矩阵A将高维数据降成低维数据,实现数据沿该坐标系的分布方差最大化,能够实现最大化保持数据的全局结构特性,其目标函数如下:
arg min ⁡ W = t r ( W T X X T W ) ,  s.t.  W W = I \argmin{W}=tr(W^TXX^TW), \quad \text { s.t. } W^W=I argminW=tr(WTXXTW), s.t. WW=I

构建的拉格朗日乘式解: X X T X X T W = X X T W Λ XX^TXX^TW=XX^TW\Lambda XXTXXTW=XXTWΛ
与LLP的解 X L X T W = X D X T W Λ XLX^TW=XDX^TW\Lambda XLXTW=XDXTWΛ对比,等价于是当 L = X T X 且 D = I L=X^TX且D=I L=XTXD=I的特例
3.2. PCA可以看成是一种特殊的LPP,区别在与LPP跟关注局部的信息和关系,而PCA关注的是全局方差信息

四、流程总结

  1. 由样本矩阵X构建权重矩阵S,度矩阵D,拉普拉斯矩阵L

  2. ( X D X T ) − 1 X L X T W (XDX^T)^{−1}XLX^TW (XDXT)1XLXTW的特征向量,取最小m个作列向量构成变换矩阵 W W W

  3. Y = W T X Y=W^TX Y=WTX完成降维

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值