LDA原理与实现

最新推荐文章于 2024-05-08 13:55:11 发布

wyfiverson

最新推荐文章于 2024-05-08 13:55:11 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/wyfiveron/article/details/105351321

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1.LDA原理

1.1 概念

$\hspace{0.5cm}$ LDA全称为Linear Discriminant Analysis，中文为线性判别分析。与PCA的作用相同，LDA的作用是降维，但是区别是PCA是无监督降维，而LDA是有监督的降维，LDA可以利用训练数据的类别标签。PCA只需要将数据映射到方差最大的空间，LDA需要将类别相同的数据尽可能靠近，类别不同时则需要分开点。这两个目标可以形式化为：
１．不同类别数据投影过后方差越大越好
２．同类样本的类间方差越小越好

1.2 公式推导

$\hspace{0.5cm}$ LDA是将数据投影到多条直线上来实现降维，假设数据为D，以二分类为例，投影的直线为W，投影后的数据为Y，则 $Y = w^{T}X$

$\hspace{0.5cm}$ 设 $D_{i}$ 为属于类别i的数据集合，类别 $D_{i}$ 的中心坐标为 $m_{i}$ = $\frac{1}{len(D_{i})}\sum_{x\in D_{i}}x$ ， $m_{i}$ 的投影后的数据为 $\tilde{m_{i}}$ = $W_{T}m_{i}$ ，对于类别i，类内的分离程度(方差)为： $\tilde{S_{i}}$ = $\sum_{y\in Y_{i}}(y-\tilde{m_{i}})^{2}$

$\hspace{0.5cm}$ LDA的表达式为: $J (w)$ = $\frac{|\tilde{m_{1}}-\tilde{m_{2}}|^{2}}{\tilde{S_{i}}^{2}+\tilde{S_{i}}^{2}}$ ，这个表达式的分子是指类间距离，分母是类内距离。最大化类间误差并最小化类内误差，所以只要max $J (w)$ 就可以了。

$\hspace{0.5cm}$ 由 $S_{i}=\sum_{x\in D_{i}}(x-m_{i})(x-m_{i})^{T}$ ，得 $\tilde{S_{i}}=\sum_{x\in D_{i}}(w_{T}x-w_{T}m_{i})^{2}=\sum_{x\in D_{i}}w^{T}(x-m_{i})(x-m_{i})^{T}w=w^{T}S_{i}w$

$\hspace{0.5cm}$ 因为 $\tilde{S_{i}}^{2}+\tilde{S_{i}}^{2}=w^{T} (S_{1}+S_{2})w=w^{T}S_{w}w$ ， $|\tilde{m_{1}}-\tilde{m_{2}}|^{2}=w^{T}(m_{1}-m_{2})(m_{1}-m_{2})^{T}w=w^{T}S_{B}w$ ，最终上式可以转化为 $J(w)=\frac{w^{T}S_{B}w}{w^{T}S_{w}w}$ ，这个被称为广义瑞利商

$\hspace{0.5cm}$ 求解J关于w的导数并置其为0， $\frac{\alpha(J)}{\alpha(w)}=\frac{2((w^{T}S_{w}w)S_{B}w-(w^{T}S_{B}w)S_{w}w)}{(w^{T}S_{w}w)^{2}}=0$
$\hspace{0.5cm}$ 得到最优的条件是: $S_{B}w=\frac{w^{T}S_{B}w}{w_{T}S_{w}w}S_{w}w$ ，所以w是 $S_{B}$ 与 $S_{w}$ 的广义特征向量，
$\frac{w_{T}S_{B}w}{w^{T}S_{w}w}$ 是其对应的广义特征值。对于二分类，整理上式可以得到
$S_{W}w=\frac{w_{T}S_{w}w}{w_{T}S_{B}w}(m_{1}-m_{2})(m_{1}-m_{2})^{T}w= \frac{w_{T}S_{w}w}{w_{T}S_{B}w}(m_{1}-m_{2})^{T}w(m_{1}-m_{2})=c(m_{1}-m_{2})$ ，c为一个标量值，所以w的方向为： $S_{w}^{-1}(m_{1}-m_{2})$

$\hspace{0.5cm}$ 上述求解方法的假设是 $S_{w}$ 可逆。当 $S_{w}$ 不可逆时，可以使用Moore-Penrose方法求解伪逆来代替矩阵的逆， $S_{w}$ 的伪逆是： $S_{W}^{+}=E\land^{+}E^{T}$ ,定义一个公式， $x^{+}=\left\{ \begin{aligned} & 0 & if x=0 \\ & \frac{1}{x} & otherwise \end{aligned} \right.$
当 $S_{W}$ 可逆时， $S_{W}^{+}=S_{W}^{-1}$ 。
此外还可以用拉格朗日方法解这个问题，一些先验知识如下， $S_{w}=\sum_{i=1}^{c}S_{i}$ ，全局散度 $S_{t}＝\sum_{i=1}^{n}(x_{i}-\mu)(x_{i}-\mu)^{T}$ ，全局散度=类内散度+类间散度，所以 $S_{B}=S_{t}-S_{w}$ ， $S_{B}=\sum_{i=1}^{c}m_{i}(\mu_{i}-\mu)(\mu_{i}-\mu)^{T}$ ，对上式求解可得到特征值与特征向量可得w

2.LDA实现

$\hspace{0.5cm}$ 首先如下图得到待FLD处理的数据点
在这里插入图片描述
对于这种数据，知其w= $S_{w}^{-1}(m_{1}-m_{2})$ ，首先对 $S_{w}$ 用奇异值分解为 $S_{w}=U\sum V^{T}$ ，得到 $S_{w}^{-1}=V\sum ^{-1}U^{T}$

 u, s, v = np.linalg.svd(s_w)  
 s_w_inv = np.dot(np.dot(v.T, np.linalg.inv(np.diag(s))), u.T)

由此可以得到w
在这里插入图片描述

参考资料

[1].https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html
[2].https://blog.csdn.net/liuweiyuxiang/article/details/78874106
[3].https://chenrudan.github.io/blog/2016/04/01/dimensionalityreduction.html#3.3
[4].https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html

wyfiverson

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
LDA原理与实现

文章目录1.LDA原理1.1 概念1.2 公式推导2.LDA实现参考资料1.LDA原理1.1 概念LDA全称为Linear Discriminant Analysis，中文为线性判别分析。与PCA的作用相同，LDA的作用是降维，但是区别是PCA是无监督降维，而LDA是有监督的降维，LDA可以利用训练数据的类别标签。PCA只需要将数据映射到方差最大的空间，LDA需要将类别相同的数据尽可能靠近，...
复制链接

扫一扫