降维
线性判别分析
相比于PCA,线性判别分析(Linear Discriminant Analysis,LDA)可以作为一种有监督的降维算法。PCA算法没有考虑数据的标签(类别),只是把原数据映射到一些方差比较大的方向上。假设有两类数据 C 1 、 C 2 C_1、C_2 C1、C2,如下图所示。根据PCA算法数据应该映射到方差最大的那个方向,即 y y y 轴方向。但 C 1 、 C 2 C_1、C_2 C1、C2两个不同类别的数据会完全混在一起,难以区分。所以使用PCA算法进行降维后再进行分类的效果非常差。LDA算法尝试将数据映射到 x x x 轴方向。
LDA首先是为分类服务的,因此只要找到一个投影方向 w w w,使得投影后的样本尽可能按照原始类别分开。以二分类问题为例,假设有两类数据 C 1 、 C 2 C_1、C_2 C1、C2,两类的均值分别是 μ 1 = 1 N 1 ∑ x ∈ C 1 x \mu_{1} = \frac{1}{N_1} \sum_{x∈C_1}x μ1=N11∑x∈C1x, μ 2 = 1 N 2 ∑ x ∈ C 2 x \mu_{2}=\frac{1}{N_2}\sum_{x∈C_2}x μ2=N21∑x∈C2