局部保持全局判别投影(Locally Preserving Global Discriminative Projection, LP-GDP)是一种用于降维
的线性投影方法,它结合了局部保持投影
(LPP)和全局判别信息
。
这种方法的目标是在保持
数据局部结构的同时,最大化
不同类别的可分性,从而在降维后的空间中提高分类
性能。
核心思想
LP-GDP通过在降维过程中保留样本的局部几何结构
,同时利用全局的类别信息
来增强不同类别的可分性。
这种方法在处理高维数据时特别有效,因为它能够保持
数据的内在局部邻域关系,同时利用判别信息
来提升分类性能。
目标函数
LP-GDP的目标函数可以表示为:
min W { tr ( W T S w W ) + β ⋅ tr ( W T S b W ) } \min_{W} \left\{ \text{tr}(W^T S_w W) + \beta \cdot \text{tr}(W^T S_b W) \right\} Wmin{tr(WTSwW)+β⋅tr(WTSbW)}
其中:
-
W
W
W 是我们要找的
投影矩阵
。 -
S
w
S_w
Sw 是
类内
散度矩阵,它描述了同一类别
内部的样本差异。 -
S
b
S_b
Sb 是
类间
散度矩阵,它描述了不同类别
之间的差异。 -
β
\beta
β 是一个
调节参数
,用于平衡局部保持和全局判别信息的重要性。
公式解析
类内散度矩阵 S w S_w Sw
类内
散度矩阵
S
w
S_w
Sw 描述了同一类别
内部的样本差异。在LPP中
,它通常是基于样本的邻域图
构建的,但在LP-GDP中,它可能被重新定义以考虑全局判别信息。
S w = D − A S_w = D - A Sw=D−A
其中:
-
D
D
D 是
度矩阵
,对角线元素等于邻接矩阵
A A A 中每一行的和,非对角线元素为0
。度矩阵反映每个样本
的权重或重要性。
-
A
A
A 是
邻接矩阵
,如果样本 i i i 和 j j j 是邻居
,则 A i j > 0 A_{ij} > 0 Aij>0,否则 A i j = 0 A_{ij} = 0 Aij=0。邻接矩阵反映了样本之间的邻域关系。
类间散度矩阵 S b S_b Sb
类间
散度矩阵
S
b
S_b
Sb 描述了不同类别
之间的差异,它通常由类中心的距离构成。
S b = ∑ i = 1 C N i ( μ i − μ ) ( μ i − μ ) T S_b = \sum_{i=1}^{C} N_i (\mu_i - \mu) (\mu_i - \mu)^T Sb=i=1∑CNi(μi−μ)(μi−μ)T
其中:
-
C
C
C 是
类别数
。 -
N
i
N_i
Ni 是第
i
i
i
类的样本数。
-
μ
i
\mu_i
μi 是第
i
i
i
类的样本均值向量。
-
μ
\mu
μ 是
所有样本的总均值向量。
优化问题
LP-GDP的目标函数是一个二次优化问题,可以通过求解广义特征值
问题来找到最优的投影矩阵
W
W
W。
S b W = λ S w W S_b W = \lambda S_w W SbW=λSwW
其中
λ
\lambda
λ 是广义特征值。通过求解这个特征值问题,我们可以找到
W
W
W,它能够最小化类内散度,同时最大化类间散度
,从而在降维后的空间中提高不同类别的可分性。
小结
LP-GDP是一种综合了局部保持和全局判别信息的降维方法
,它在保持数据局部结构的同时,利用类别信息来提高分类性能。
这种方法在处理具有复杂结构和类别信息的高维数据集时非常有效。