线性判别分析 LDA 理论与代码

_森罗万象

已于 2023-01-03 11:47:24 修改

阅读量436

点赞数

分类专栏：学习笔记文章标签：人工智能 python

于 2022-12-30 12:16:09 首次发布

本文链接：https://blog.csdn.net/weixin_52812620/article/details/128493939

版权

学习笔记专栏收录该内容

52 篇文章 1 订阅

订阅专栏

博客园相关内容值得一看。 $L D A$ 是一种线性分类模型，也可用于降维，其想法是将 $y = 0$ 的那些数据 $X_0$ 和 $y = 1$ 的那些数据 $X_1$ 投影到低维空间，使得 $X_0$ 的那些点投影后离得近， $X_1$ 的那些点离得近，但是 $X_0$ 和 $X_1$ 分别的点离得远。将数据分别投影到直线 $w$ 上， $X_i,\mu_i,\Sigma_i$ 分别是 $y = i$ 的数据矩阵，均值向量，协方差矩阵，投影之后的中心值是 $w^T\mu_i$ ，协方差值是 $w^T\Sigma_i w$ ，为了使同类的离散程度小，异类的距离大，可最大化 $J=\frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0 w+w^T\Sigma_1 w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1) w}$ ，定义类内散度矩阵 $S_{within}=\Sigma_0+\Sigma_1$ 和类间散度矩阵 $S_{between}=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ ，则最大化目标可重写为 $J=\frac{w^TS_bw}{w^TS_ww}$ ，即 $S_b$ 和 $S_w$ 的广义瑞利商

若 $w$ 是一个二维向量，它表示的直线是 $(0, 0)$ 到 $w_1,w_2)$ 连接的直线

均值向量就是对数据的特征求均值， $X_{m\times n}$ 横向求均值压缩成竖条 $\mu_{m\times 1}$

随机变量 $X$ 方差的公式是 $Var(X)=E[(X-E(X))^2]$ ，和另一随机变量 $Y$ 的协方差的公式是 $CO V (X, Y) = E [(X - E (X) (Y - E (Y))]$ ，矩阵 $X$ 的协方差矩阵也叫方差矩阵，求法是 $E[(X-E(X))^2]$ （更像方差），也就是 $\frac{1}{m}(X-\mu)^T(X-\mu)$ ，得到的矩阵维度是 $COV_{n\times n}$ ，协方差矩阵表示了数据向量的离散程度

为什么投影之后的方差是 $w^T\Sigma w$ ？

广义瑞利商的分子分母都是 $w$ 的二次项，因此最优解 $J$ 与 $w$ 的长度无关，最优化 $J=\frac{w^TS_bw}{w^TS_ww}$ ，可等价于优化
$min_w\ -w^TS_bw\\ s.t. \ w^TS_ww=1$

**因此最优解 $J$ 与 $w$ 的长度无关是什么意思？**书上写若 $w$ 是一个解，则任意 $\alpha w$ 也是一个解

根据拉格朗日乘子法相当于无约束优化
$min_w \ -w^TS_bw+\lambda w^TS_ww$
对 $w$ 求偏导是 $-(S_b+S_b^T)w+\lambda (S_w+S_w^T)w$ ，令其为 $0$ 可得到 $\lambda S_ww=S_bw$ ， $S_bw$ 可表示为是 $\lambda'(\mu_0-\mu_1)$ ，因此 $\lambda'(\mu_0-\mu_1)=\lambda S_ww$ ，由于最优解与 $w$ 的长度无关，因此 $w=S_w^{-1}(\mu_0-\mu_1)$ ，由于 $S_w$ 可能不可逆，实践上上利用奇异值分解得到 $S_w^{-1}=V\Sigma^{-1}U^T$

$xA^Tx$ 对 $x$ 求偏导结果是 $A+A^T)x$

$S_{b}=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ ， $S_b^T=((\mu_0-\mu_1)(\mu_0-\mu_1)^T)^T=(\mu_0-\mu_1)(\mu_0-\mu_1)^T=S_b$ ，因此 $S_b$ 是对称矩阵

$S_{w}=\Sigma_0+\Sigma_1$ ，两个协方差矩阵都是对称矩阵，因此 $S_w$ 是对称矩阵

对称矩阵满足 $S+S^T=2S$

$S_{between}=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$ 是一个秩一矩阵，它的秩就在 $\mu_0-\mu_1$ 这条线上， $S_bw$ 是将 $w$ 变换到 $S_b$ 的列空间中，肯定是变换到了 $\mu_0-\mu_1$ 这条线上，因此 $S_bw$ 可表示为是 $\lambda(\mu_0-\mu_1)$

将 $L D A$ 推广到多分类任务，定义全局散度矩阵 $S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T$ ， $\mu$ 是全局均值向量，类内散度矩阵类推是 $S_w=\Sigma_0+\Sigma_1+\dots+\Sigma_k$ ，即 $k$ 个类别的协方差矩阵和， $S_b=S_t-S_w$ ，多分类 $L D A$ 最常见是最优化 $J=\frac{tr(W^TS_bW)}{tr(W^TS_wW)}$ ，其中 $W$ 是投影矩阵，可将原数据 $X$ 投影到 $N$ 维度， $W$ 的解是 $S_w^{-1}S_b$ 的前 $N$ 个最大广义特征值所对应的特征向量矩阵。 $L D A$ 的代码， $L D A$ 理论， $L D A$ 和 $PC A$ 的异同