可鉴别的局部投影(Discriminant Locally Projective Analysis,DLPA)是一种用于模式识别和机器学习中的降维技术
,尤其适用于处理具有复杂结构
和非线性关系
的数据集。
DLPA结合了局部投影
的思想和鉴别分析
的目标,旨在保留数据的局部几何结构的同时,增强不同类别的可分性。
DLPA的核心思想
DLPA试图找到一个投影,使数据在低维空间中既
保持局部结构的连贯性,又能
最大程度地分离不同类别的数据。
它通常被视为局部保持投影
(Locally Preserving Projections, LPP)和线性鉴别分析
(Linear Discriminant Analysis, LDA)的结合体。
公式和解释
DLPA的公式主要围绕构建一个最优投影矩阵
P
P
P,该矩阵通过最大化类间
差异和最小化类内
差异来定义。DLPA的目标函数可以表达为:
max P tr ( P T S b P ) tr ( P T S w P ) \max_P \frac{\text{tr}(P^T S_b P)}{\text{tr}(P^T S_w P)} Pmaxtr(PTSwP)tr(PTSbP)
其中:
-
S
b
S_b
Sb 是
类间
散度矩阵,代表不同类别
中心之间的差异; -
S
w
S_w
Sw 是
类内
散度矩阵,代表同一类别
内部的差异; -
P
P
P 是
投影矩阵
,它将高维数据映射到低维空间;
-
tr
(
⋅
)
\text{tr}(\cdot)
tr(⋅) 是矩阵的
迹
,即对角线元素之和。
类内散度矩阵 S w S_w Sw
类内
散度矩阵
S
w
S_w
Sw 描述了同一类别
内部样本的分布情况,我们希望这个矩阵越小越好
,意味着同一类内的样本点在投影后的空间中更加聚集。
S w = ∑ i = 1 C ∑ x j ∈ C i ( x j − μ i ) ( x j − μ i ) T S_w = \sum_{i=1}^{C} \sum_{x_j \in \mathcal{C}_i} (x_j - \mu_i) (x_j - \mu_i)^T Sw=i=1∑Cxj∈Ci∑(xj−μi)(xj−μi)T
-
C
C
C 是
类别数
; -
C
i
\mathcal{C}_i
Ci 是第
i
i
i 类的
所有样本组成的集合;
-
x
j
x_j
xj 是属于第
i
i
i 类的
样本
; -
μ
i
\mu_i
μi 是第
i
i
i 类的
样本均值向量。
类间散度矩阵 S b S_b Sb
类间散度矩阵 S b S_b Sb 描述了不同类别中心之间的距离,我们希望这个矩阵越大越好,这意味着不同类别的样本点在投影后的空间中更加分离。
S b = ∑ i = 1 C N i ( μ i − μ ) ( μ i − μ ) T S_b = \sum_{i=1}^{C} N_i (\mu_i - \mu) (\mu_i - \mu)^T Sb=i=1∑CNi(μi−μ)(μi−μ)T
-
N
i
N_i
Ni 是第
i
i
i 类的
样本数;
-
μ
i
\mu_i
μi 是第
i
i
i 类的
样本均值向量。
-
μ
\mu
μ 是
所有样本的总均值向量。
DLPA的优化
DLPA的优化目标是找到一个
P
P
P,它能够最大化类间
差异和最小化类内
差异。这通常通过求解广义特征值问题来实现:
S b P = λ S w P S_b P = \lambda S_w P SbP=λSwP
其中
λ
\lambda
λ 是广义特征值。为了保证投影方向的最优性和正交性
,我们会选择前
d
d
d 个最大的特征值对应的特征向量
作为投影矩阵
P
P
P 的列向量
,其中
d
d
d 是我们希望降维到的维度。
小结
DLPA是一种有效的降维方法,尤其适用于非线性数据集的分类
任务。通过优化类内和类间散度矩阵的比例
,DLPA能够找到一个既能保持
数据局部结构,又能增强
不同类别可分性的低维表示。
这种技术在处理诸如人脸识别、文本分类和生物信息学等领域的问题时特别有用。