【机器学习】二分类+多分类LDA线性判别分析降维算法的原理与推导

Lies.

已于 2023-03-06 00:26:57 修改

阅读量4.1k

点赞数 13

分类专栏：机器学习文章标签：机器学习算法分类

于 2023-03-06 00:24:26 首次发布

本文链接：https://blog.csdn.net/weixin_46564151/article/details/129353543

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

不同于PCA方差最大化理论，LDA算法的思想是将数据投影到低维空间之后，使得同一类数据尽可能的紧凑，不同类的数据尽可能分散。

它的数据集的每个样本是有类别输出的，投影后类间方差最大，类内方差最小

LDA需要数据满足如下两个假设：

原始数据根据样本均值进行分类
不同类的数据拥有相同的协方差矩阵

一般来说第2条很难满足，所以在实际使用中如果原始数据主要是根据均值来划分的，此时LDA降维效果很好，但是PCA效果就很差，如下图：

在这里插入图片描述

PCA是寻找数据集中方差最大的方向作为主成分分量的轴，而LDA是最优化分类的特征子空间。因此PCA和LDA各有适用情况，需要根据数据对症下药。

先对整个问题做个定义：

已有如下的数据集 $D=(x_1^{(1)},x_2^{(1)},\cdots,x_n^{(1)}),(x_1^{(2)},x_2^{(2)},\cdots,x_n^{(2)}),\cdots,(x_1^{(k)},x_2^{(k)},\cdots,x_n^{(k)})$ ，共k个样本

按我个人的习惯写为矩阵 $\mathcal{X}=[x_1,x_2,\cdots,x_k]=\begin{bmatrix}x_{11}&x_{21}&\cdots&x_{k1}\\x_{12}&x_{22}&\cdots&x_{k2}\\\vdots&\vdots&\cdots&\vdots\\x_{1n}&x_{2n}&\cdots&x_{kn}\end{bmatrix}$
任一样本 $x^{(i)}$ 为n维向量，属于类别 $y^{(i)}\in\{C_1,C_2,\cdots,C_m\}$ ，共m类

对应写为矩阵 $\mathcal{Y}=\begin{bmatrix}y_1\\y_2\\\vdots\\y_k\end{bmatrix}$
$X_j$ 是属于第 $j$ 类样本的集合，集合内样本的数量为 $N_j$ ， $\mu_j$ 是第 $j$ 类样本的均值， $S_j$ 是第 $j$ 类样本的散度矩阵， $j\in1,2,\cdots,m$

$\mu_j=\frac{1}{N_j}\sum_{x\in X_j}x=\begin{bmatrix}\bar x_{\cdot1}\\\bar x_{\cdot2}\\\vdots\\\bar x_{\cdot n}\end{bmatrix}$ ， $S_j=\sum_{x\in X_j}(x-\mu_j)(x-\mu_j)^T$ ，显然 $S_j$ 的维度是 $N_j\times N_j$

二分类LDA

先考虑最为简单的情况， $j\in \{0,1\}$ ，即二分类LDA

由于是两类数据，因此我们只需要将数据投影到一条直线上即可。

这里我思考了很久为什么n维的数据点要投影到一条直线（降维到1维）？降维后的维数到底与什么有关？样本标签y到底对降维起了什么作用？

参考：LDA线性判别分析原理篇

首先回答第一个问题：我们的任务是为了分类服务的，那么我们需要投影后的样本尽可能的分开，最简单的度量类别之间分开程度的方式就是类别均值投影之后的距离，注意距离是个标量，是一个数，那么它的维数自然就是1维。

（前面是针对只有两个类的情况，假设类别变成多个了，那么要怎么改变，才能保证投影后类别能够分离呢？我们之前讨论的是如何将n维降到一维，现在类别多了，一维可能已经不能满足要求，所以才有了多类别的LDA）

第二个问题（具体的推导在多分类LDA中）：LDA降维最多只能降到“类别数-1”，因为类间散度矩阵 $S_b$ 的秩最大为“类别数-1”，所以计算时最多会有“类别数-1”个特征值不为零的特征向量。这也是LDA相较于PCA的一大缺点，PCA降维后的维数是任意的，而LDA却有限制

（所以当数据维度很高，但是类别数少的时候，算法并不适用）

第三个问题：我个人理解，LDA是监督学习，要利用先验知识（已有的数据点和所属类别）学习到一个降维的工具 $w$ ，学习完以后才可以对新来的数据进行降维，方便分类。（而PCA则是无监督学习，无法处理不同类别的数据，只能针对同一类别的数据）

我们需要投影后的样本尽可能的分开，最简单的度量类别之间分开程度的方式就是类别均值投影之后的距离，保证让投影之后的中心距离尽可能的大，也就是：

$|\mu_1'-\mu_2'|^2=|w^T\mu_1-w^T\mu_2|^2=|w^T(\mu_1-\mu_2)|^2$ ，即将均值向量进行线性变换，使变换后两类的均值向量之间的距离尽可能的远

对上式进行化简：

$|\mu_1'-\mu_2'|^2=[w^T(\mu_1-\mu_2)][w^T(\mu_1-\mu_2)]^T=w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw$

上式有个潜在的问题：通过增大w，这个表达式的值可以任意增大，因此我们限定这个w只能是单位长度

再考虑另一个要求，类内方差尽可能小，同PCA一样，我们考虑散度而非方差：

$S_1'+S_2'=\sum_{x\in X_1}(w^Tx-w^T\mu_1)(w^Tx-w^T\mu_1)^T+\sum_{x\in X_2}(w^Tx-w^T\mu_2)(w^Tx-w^T\mu_2)^T$

对上式进行化简：

$S_1'+S_2'=w^T\bigl[\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T\bigr]w+w^T\bigl[\sum_{x\in X_2}(x-\mu_2)(x-\mu_2)^T\bigr]w=w^TS_1w+w^TS_2w=w^T(S_1+S_2)w$

现在考虑LDA的核心，类间方差越大越好，类内方差越小越好，那么就让其一个做分母一个做分子：

$J(w)=\frac{|\mu_1'-\mu_2'|^2}{S_1'+S_2'}=\frac{w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw}{w^T(S_1+S_2)w}$ ，可以看出这个函数其实是有规律的

我们令：

$S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^T$ 代表类间散度矩阵，between-class scatter的b
$S_w=S_1+S_2$ 代表类内散度矩阵，within-class scatter的w

则有 $J(w)=\frac{w^TS_bw}{w^TS_ww}$ ，可以看出上下均是关于w的二次项，在最终的结果矩阵里作为系数可以约去，因此J的大小与w的长度无关，只与w的方向有关，故我们简单的令 $w^TS_ww||=1$ ，则问题转化成：

$\begin{array}{cl} \min _{\boldsymbol{w}} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{\mathrm{b}} \boldsymbol{w} \\ \text { s.t. } & ||\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{\mathrm{w}} \boldsymbol{w}||=1 \end{array}$ ，即带条件的最值问题，使用拉格朗日乘数法：

$L(w)=w^TS_bw-\lambda(w^TS_ww-1)$

对 $w$ 求导（矩阵求导没学过…得看矩阵论）使之为0，得到 $J (w)$ 取最大值的条件：

$w^TS_bw)S_ww=(w^TS_ww)S_bw$

为什么二分类问题中 $w^TS_bw$ 和 $w^TS_ww$ 都是标量？

这就要考虑 $w$ 的形状，因为这是个二分类，我们要将所有数据点投影到一条直线上，即降维到一维，因此 $w$ 的形状应该是 $n\times 1$ ，才能使 $w^Tx$ 为标量

$S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^T$ 的形状是 $n\times n$

$S_w=S_1+S_2$ 的形状是 $n\times n$

则 $w^TS_bw$ 为 $(1\times n)(n\times n)(n\times1)=1\times 1$ ， $w^TS_ww$ 同理

如果降维到非一维则显然不是个标量

因为二分类问题中 $w^TS_bw)$ 和 $w^TS_ww)$ 都是标量，所以可以把上式直接看作：

$S_bw=\lambda S_ww$ ，同乘 $S_w^{-1}$ ，得到 $S_w^{-1}S_bw=\lambda w$ ，再令 $S=S_w^{-1}S_b$ ，得到 $Sw=\lambda w$ ，

从最后这个式子就可以看出，是一个求w的特征值和特征向量的问题了，

即 $w$ 是矩阵 $S_w^{-1}S_b$ 的特征向量，这个公式称为Fisher linear discrimination。

由于此时是二分类，降维至一维，因此观察到 $S_w^{-1}S_bw=\lambda w$ 中，

$S_bw$ 展开为 $(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw$ ，

而 $\mu_1-\mu_2$ 的形状为 $n\times1$ ，所以 $(\mu_1-\mu_2)^Tw$ 的形状是 $(1\times n)(n\times1)=1\times1$ 即标量常数，

所以我们令 $\lambda'=(\mu_1-\mu_2)^Tw$ ，则将 $S_w^{-1}S_bw=\lambda w$ 化简为：

$S_w^{-1}(\mu_1-\mu_2)\lambda'=\lambda w$ ，由于我们只要 $w$ 的方向，因此将 $\lambda$ 和 $\lambda'$ 都省略，得到 $w$ 的方向为 $w=S_w^{-1}(\mu_1-\mu_2)$

至此，我们只需要求出原始样本的均值和方差就可以求出最佳的方向

多分类LDA

重新观察二分类的类间散度矩阵 $S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^T$ ，

为了直观呈现结果，我们假设 $\mu_1-\mu_2=\begin{bmatrix}a_1\\a_2\\\vdots\\a_n\end{bmatrix}$ ，则 $S_b=\begin{bmatrix}a_1^2&a_1a_2&\cdots&a_1a_n\\a_2a_1&a_2^2&\cdots&a_2a_n\\\vdots&\vdots&\vdots&\vdots\\a_na_1&a_na_2&\cdots&a_n^2\end{bmatrix}$ ，可见 $S_b$ 的秩为1（第一行同除以 $a_1$ ，第二行同除以 $a_2$ ，…），

那么 $S_w^{-1}S_b$ 的秩 $rank(S_w^{-1}S_b)\leq\min\{rank(S_w^{-1}),rank(S_b)\}=1$ ，又因为 $w$ 是矩阵 $S_w^{-1}S_b$ 的特征向量，秩为1的矩阵最多有一个特征值不为0的特征向量，因此 $w$ 的形状只能是 $n\times1$ ，这也就是为什么二分类只能降维为1维

==为什么必须是特征值不为0的特征向量？==因为我们的特征值 $\lambda$ 来自拉格朗日乘数法（见上文），如果 $\lambda=0$ ，相当于无约束最值问题，显然是不可以的。

有了上面这个理解，我们再来看多分类LDA，之前的二分类LDA是问题的简化版，是将两个类的数据降维到一条直线上，降维后维度为1，但是当遇到类别为多类的时候，维度为1已经不能满足要求了，类别变成多个了，那么要怎么改变，才能保证投影后类别能够分离呢？现在我们把问题拓展为：我们有m个类别，需要将特征降维到d维。

有了前面的推导基础，接下来的处理照猫画虎，仍然从类间散度和类内散度入手：

我们发现对于多类的情况，类内散度矩阵依然存在。并且定义和之前一样基本保持不变，仍然类似于类内部样本点的协方差矩阵：

类间散度矩阵 $S_w=\sum_{i=1}^mS_{i}$ ，其中 $S_i=\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T$
由于扩展了多类别，类间散度矩阵已经无法按照之前的定义来求了，原来度量的是两个均值点之间的距离，现在有多个类，那么就需要求每个类样本均值点到所有样本均值点之间的距离：

$S_b=\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T$ ，其中 $\mu_i=\frac{1}{N_i}\sum_{x\in X_i}x,\mu=\frac{1}{N}\sum_{\forall x}x$

这里我一开始的最朴素的想法其实是计算各类别两两之间均值点的距离之和，但是LDA的定义却是与我的想法不同，核心的问题是如果是各类别两两之间均值点的距离之和，那么在优化的过程中并不一定将每一对距离都优化到最大，举一个极端的例子，有可能某一对均值点之间的距离为0，另一对均值点之间的距离为最大10，那么二者的和可能仍然是最大值，但是对第一对的类别来说已经看作同一类了（丧失了这一对类别的可分性）

同二分类LDA，最后所求的线性变换矩阵 $w$ 是矩阵 $S_w^{-1}S_b$ 的特征向量，只是此时的矩阵 $S_w^{-1}S_b$ 的秩不再是1，那么其对应的特征不为0的特征向量有多少个呢？

观察类间散度矩阵 $S_b=\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T$ ，考虑其中的任一矩阵 $(\mu_i-\mu)(\mu_i-\mu)^T$ ，

显然对于固定的训练数据来说，总体的样本均值 $\mu$ 是个不变的向量，于是

设 $\mu=\begin{bmatrix}c_1\\c_2\\\vdots\\c_n\end{bmatrix}$ ，那么对某个类的均值点 $\mu_i=\begin{bmatrix}a_{i1}\\a_{i2}\\\vdots\\a_{in}\end{bmatrix}$ ，有：

$(\mu_i-\mu)(\mu_i-\mu)^T=\begin{bmatrix}(a_{i1}-c_1)^2&(a_{i1}-c_1)(a_{i2}-c_2)&\cdots&(a_{i1}-c_1)(a_{in}-c_n)\\(a_{i2}-c_2)(a_{i1}-c_1)&(a_{i2}-c_2)^2&\cdots&(a_{i2}-c_2)(a_{in}-c_n)\\\vdots&\vdots&\vdots&\vdots\\(a_{in}-c_n)(a_{i1}-c_1)&(a_{in}-c_n)(a_{i2}-c_2)&\cdots&(a_{in}-c_n)^2\end{bmatrix}$ ，其秩仍为1，

那么对于 $S_b=\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T$ ，其秩 $rank(S_b)\leq \sum_{i=1}^m1=m$ （矩阵的秩小于等于各个相加矩阵的秩的和），又因为 $\mu=\sum_{i=1}^mp_i\mu_i$ ，其中 $p_i$ 是每个类占总数的频率，也就是说知道了 $\mu_1$ 到 $\mu_{m-1}$ ，就可以直接求出 $\mu_m$ ，换句话讲， $[\mu_1,\mu_2,\cdots,\mu_m,\mu]$ 这个向量组是线性相关的

至于为什么要乘以频率，这要知道<均值的和>与<和的均值>之间的关系

综上， $rank(S_b)\leq m-1$ ，则 $S_w^{-1}S_b$ 的秩最多是m-1，那么它也就最多有m-1个特征值不为0的特征向量，因此 $w$ 的形状最多为 $n\times(m-1)$ ，那么降维后的数据维数也就最多是m-1维。

一开始我没想通为什么 $rank(S_b)\leq \sum_{i=1}^m1=m$ ，因为我认为 $(\mu_i-\mu)(\mu_i-\mu)^T$ 这个秩为1的矩阵可以等价于只有第一行有元素的矩阵：

$\begin{bmatrix}a_{i1}-c_1&a_{i2}-c_2&\cdots&a_{in}-c_n\\0&0&\cdots&0\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\end{bmatrix}$ ，

那么相加后难道不是 $\begin{bmatrix}a_{i1}-c_1&a_{i2}-c_2&\cdots&a_{in}-c_n\\0&0&\cdots&0\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\end{bmatrix}$ 吗？为什么会是秩为m-1的呢？

后来意识到， $(\mu_i-\mu)(\mu_i-\mu)^T$ 这个秩为1的矩阵不仅可以等价于只有第一行有元素的矩阵，还可以等价于只有第二行有元素的矩阵 $\begin{bmatrix}0&0&\cdots&0\\a_{i1}-c_1&a_{i2}-c_2&\cdots&a_{in}-c_n\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\end{bmatrix}$ ，同理也就等价于只有第n行有元素的矩阵

那么在这个考虑之下，相加的结果就不一样了：

$\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T=\begin{bmatrix}a_{11}-c_1&a_{12}-c_2&\cdots&a_{1n}-c_n\\0&0&\cdots&0\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\end{bmatrix}\\+\begin{bmatrix}0&0&\cdots&0\\a_{21}-c_1&a_{22}-c_2&\cdots&a_{2n}-c_n\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\end{bmatrix}\\+\cdots\\+\begin{bmatrix}0&0&\cdots&0\\\vdots&\vdots&\vdots&\vdots\\0&0&\cdots&0\\a_{m1}-c_1&a_{m2}-c_2&\cdots&a_{mn}-c_n\\\end{bmatrix}$

即： $\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T=\begin{bmatrix}a_{11}-c_1&a_{12}-c_2&\cdots&a_{1n}-c_n\\a_{21}-c_1&a_{22}-c_2&\cdots&a_{2n}-c_n\\\vdots&\vdots&\vdots&\vdots\\a_{m1}-c_1&a_{m2}-c_2&\cdots&a_{mn}-c_n\end{bmatrix}$ ，

又因为 $c_i=\sum_{i=1}^mp_ia_{i\cdot}$ ，则上面这个矩阵的任一行可由其余行线性表出，因此：

$S_b=\sum_{i=1}^m(\mu_i-\mu)(\mu_i-\mu)^T$ 的秩最多为 $m - 1$