一、前言
局部保持投影算法(LPP)主要是通过线性近似LE(Laplacian Eigenmaps),想保留的是高维中的局部信息
二、主要步骤
具体步骤如下所示:
1.确定LPP的目标函数: min 1 2 ∑ i , j ( y i − y j ) 2 s i j \min \frac{1}2\sum_{i, j}(y_{i}-y_{j})^{2} s_{i j} min21i,j∑(yi−yj)2sij
其中
y
i
y_i
yi表示的是降维后的任意数据点
i
i
i,
y
j
y_j
yj表示的是降维后的任意数据点不包含
i
i
i。
其中
s
i
j
s_{ij}
sij表示的是原始空间中
i
,
j
i,j
i,j之间的距离权重系数组成的矩阵。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高, 采用全连接法高斯核计算公式如下:
s
i
j
=
e
−
∥
x
i
−
x
j
∥
2
2
2
σ
2
s_{i j}=e^{-\frac{\left\|x_{i}-x_{j}\right\|_{2}^{2}}{2 \sigma^2}}
sij=e−2σ2∥xi−xj∥22
2.目标函数优化:
1
2
∑
i
=
1
n
∑
j
=
1
n
(
y
i
−
y
j
)
2
s
i
j
=
1
2
∑
i
=
1
n
∑
j
=
1
n
(
y
i
2
−
2
y
i
y
j
+
y
j
2
)
s
i
j
=
∑
i
=
1
n
D
i
i
y
i
2
−
∑
i
=
1
n
∑
j
=
1
n
y
i
y
j
s
i
j
=
Y
T
L
Y
\begin{aligned} &\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}-y_{j}\right)^{2} s_{i j} \\ &=\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}^2-2 y_{i} y_{j}+y_{j}^2\right) s_{i j} \\ &= \sum_{i=1}^{n} D_{i i} y_{i}^2- \sum_{i=1}^{n} \sum_{j=1}^{n} y_{i} y_{j} s_{i j} \\ &=Y^{T} L Y \end{aligned}
21i=1∑nj=1∑n(yi−yj)2sij=21i=1∑nj=1∑n(yi2−2yiyj+yj2)sij=i=1∑nDiiyi2−i=1∑nj=1∑nyiyjsij=YTLY
其中
S
S
S 是图的邻接矩阵,对角矩阵
D
D
D 是图的度矩阵(
D
i
i
=
∑
j
=
1
n
s
i
j
D_{ii}=\sum_{j=1}^{n} s_{i j}
Dii=∑j=1nsij ),
L
=
D
−
S
L=D-S
L=D−S 成为图的拉普拉斯矩阵。
假设 α α α是变换矩阵,令 Y T = W T X Y^T=W^TX YT=WTX
则目标函数转换为:
1
2
∑
i
=
1
n
∑
j
=
1
n
(
y
i
−
y
j
)
2
W
i
j
=
W
T
X
L
X
T
W
\begin{aligned} &\frac{1}2\sum_{i=1}^{n} \sum_{j=1}^{n}\left(y_{i}-y_{j}\right)^{2} W_{i j} \\ &= W^TXLX^TW \end{aligned}
21i=1∑nj=1∑n(yi−yj)2Wij=WTXLXTW
该目标存在平凡零解:
W
=
O
m
∗
d
W = O_{m ∗ d}
W=Om∗d,此时L取最小值0,出现维度坍缩,所有样本映射到同一个点上,此解无意义
当W不取零矩阵时,由于没有添加尺度约束,在降维子空间一定(组成基向量方向一致)情况下,当尺度不断变小时,目标L会同时变小,无限趋于0,不存在最小值
因此,考虑对最小化目标变形为:
Y
T
L
Y
Y
T
D
Y
=
W
T
X
L
X
T
W
W
T
X
D
X
T
W
\frac{Y^TLY}{Y^TDY}=\frac{W^TXLX^TW}{W^TXDX^TW}
YTDYYTLY=WTXDXTWWTXLXTW
为了防止消除任意的缩放因子(为了防止过拟合的现象),添加尺度归一条件:
Y
T
D
Y
=
1
→
α
T
X
D
X
T
α
=
1
Y^TDY=1\to α^TXDX^Tα=1
YTDY=1→αTXDXTα=1
变换后的拉普拉斯特征映射优化的目标函数如下:
arg min
W
W
T
X
L
X
T
W
,
s.t.
W
T
X
D
X
T
W
=
I
\argmin_{W} W^TXLX^TW, \quad \text { s.t. } W^TXDX^TW=I
WargminWTXLXTW, s.t. WTXDXTW=I
其中限制条件 s . t . W T X D X T W = I { s.t. } W^TXDX^TW=I s.t.WTXDXTW=I 保证优化问题有解。
3.拉格朗日乘子法求解:
L
=
W
T
X
L
X
T
W
+
Λ
(
W
T
X
D
X
T
W
−
I
)
∂
L
∂
W
=
2
X
L
X
T
W
−
2
X
D
X
T
W
Λ
=
0
∴
X
L
X
T
W
=
X
D
X
T
W
Λ
(
X
D
X
T
)
−
1
X
L
X
T
W
=
W
Λ
\begin{aligned} &L=W^TXLX^TW+\Lambda(W^TXDX^TW-I)\\ &\frac{\partial L}{\partial W}=2XLX^TW−2XDX^TWΛ=0\\\\ &\therefore XLX^TW=XDX^TWΛ\\ &(XDX^T)^{−1}XLX^TW=WΛ \end{aligned}
L=WTXLXTW+Λ(WTXDXTW−I)∂W∂L=2XLXTW−2XDXTWΛ=0∴XLXTW=XDXTWΛ(XDXT)−1XLXTW=WΛ
W
W
W由
(
X
D
X
T
)
−
1
X
L
X
T
W
(XDX^T)^{−1}XLX^TW
(XDXT)−1XLXTW的特征向量作为列向量构成,且为了最小化目标函数,选取的特征向量应该是最小m个特征值对应的特征向量降维后的结果输出。
变换矩阵: W = [ w 1 , w 2 , . . . , w m ] W = [ w_1,w_2 , . . . , w_m ] W=[w1,w2,...,wm]由 ( X D X T ) − 1 X L X T W (XDX^T)^{−1}XLX^TW (XDXT)−1XLXTW最小m个特征向量构成
三、LPP与PCA区别
3.1. PCA的核心是通过投影矩阵A将高维数据降成低维数据,实现数据沿该坐标系的分布方差最大化,能够实现最大化保持数据的全局结构特性,其目标函数如下:
arg min
W
=
t
r
(
W
T
X
X
T
W
)
,
s.t.
W
W
=
I
\argmin{W}=tr(W^TXX^TW), \quad \text { s.t. } W^W=I
argminW=tr(WTXXTW), s.t. WW=I
构建的拉格朗日乘式解:
X
X
T
X
X
T
W
=
X
X
T
W
Λ
XX^TXX^TW=XX^TW\Lambda
XXTXXTW=XXTWΛ
与LLP的解
X
L
X
T
W
=
X
D
X
T
W
Λ
XLX^TW=XDX^TW\Lambda
XLXTW=XDXTWΛ对比,等价于是当
L
=
X
T
X
且
D
=
I
L=X^TX且D=I
L=XTX且D=I的特例
3.2. PCA可以看成是一种特殊的LPP,区别在与LPP跟关注局部的信息和关系,而PCA关注的是全局方差信息
四、流程总结
-
由样本矩阵X构建权重矩阵S,度矩阵D,拉普拉斯矩阵L
-
求 ( X D X T ) − 1 X L X T W (XDX^T)^{−1}XLX^TW (XDXT)−1XLXTW的特征向量,取最小m个作列向量构成变换矩阵 W W W
-
由 Y = W T X Y=W^TX Y=WTX完成降维