正交鉴别投影(Orthogonal Discriminant Projection, ODP)是一种用于分类任务
的线性降维技术
,它的目标是找到一个投影
,使得在投影后的低维空间中,不同类别
的数据点尽可能分开,而同类别
的数据点尽可能靠近。
ODP与线性鉴别分析(Linear Discriminant Analysis, LDA)类似,但ODP强调了投影方向的正交性
,这意味着每一个投影方向都是相互独立的
,这有助于提高分类的效率和准确性。
公式和解释
ODP的主要公式涉及到了类间
散度矩阵
S
b
S_b
Sb 和类内
散度矩阵
S
w
S_w
Sw。这两个矩阵描述了数据的分布情况,是ODP进行投影方向选择的基础
。
类内散度矩阵 S w S_w Sw
类内
散度矩阵衡量了同一类别
内部样本的分散程度,我们希望这个矩阵越小越好
,这意味着同一类内的样本点在投影后的空间中更加聚集。
S w = ∑ i = 1 C ∑ j = 1 N i ( x j ( i ) − μ i ) ( x j ( i ) − μ i ) T S_w = \sum_{i=1}^{C} \sum_{j=1}^{N_i} (x_j^{(i)} - \mu_i) (x_j^{(i)} - \mu_i)^T Sw=i=1∑Cj=1∑Ni(xj(i)−μi)(xj(i)−μi)T
-
C
C
C 是
类别数;
-
N
i
N_i
Ni 是第
i
i
i 类的
样本数;
-
x
j
(
i
)
x_j^{(i)}
xj(i) 是第
i
i
i 类中的第
j
j
j 个
样本
; -
μ
i
\mu_i
μi 是第
i
i
i 类的
样本均值向量。
类间散度矩阵 S b S_b Sb
类间
散度矩阵描述了不同类别
中心之间的距离,我们希望这个矩阵越大越好,
这意味着不同类别的样本点在投影后的空间中更加分离。
S b = ∑ i = 1 C N i ( μ i − μ ) ( μ i − μ ) T S_b = \sum_{i=1}^{C} N_i (\mu_i - \mu) (\mu_i - \mu)^T Sb=i=1∑CNi(μi−μ)(μi−μ)T
-
N
i
N_i
Ni 是第
i
i
i 类的
样本数;
-
μ
i
\mu_i
μi 是第
i
i
i 类的
样本均值向量。
-
μ
\mu
μ 是
所有样本的总均值向量。
投影矩阵 W W W
ODP的目标是找到一个投影矩阵
W
W
W,使得投影后的数据满足最大类间散度和最小类内散度
。然而,ODP还要求投影方向正交
,这通常通过求解广义特征值问题来实现:
S b W = λ S w W S_b W = \lambda S_w W SbW=λSwW
其中
λ
\lambda
λ 是广义特征值。为了确保投影方向正交
,我们选取广义特征值对应的特征向量
作为投影矩阵
W
W
W 的列向量
。
这些特征向量不仅能够最大化类间差异,还能保持正交性,从而在低维空间中更好地分离不同类别的数据。
实现细节
在实际中,求解上述广义特征值问题可能涉及到矩阵的逆运算
,但由于
S
w
S_w
Sw 可能是奇异的
(即非满秩),直接求逆可能导致计算不稳定。
因此,实践中通常采用更稳定的算法,如奇异值分解
(SVD)来间接
求解广义特征值问题,或者使用正则化
技术来确保
S
w
S_w
Sw 是正定的。
小结
正交鉴别投影是一种有效的降维技术,尤其适用于分类任务。通过优化类内和类间散度矩阵的比例
,ODP能够找到一组正交的投影方向,这些方向不仅能够增强不同类别的可分性,还能保持投影方向之间的独立性,从而提高分类的效率和准确性。