PCA(主成成分分析)和LDA(线性判别分析)详解-共性和区别

最新推荐文章于 2024-07-23 21:33:06 发布

yj_isee

最新推荐文章于 2024-07-23 21:33:06 发布

阅读量2.6w

点赞数 13

分类专栏： Machine Learning 模式识别与机器学习研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/71036320

版权

PCA和LDA是数据降维的方法，PCA为无监督，不依赖标签，寻找最大化方差的投影；LDA是监督方法，依赖标签，目标是最大化类间距离并最小化类内距离，适用于分类任务。两者在数据投影的选择上有显著差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：这里说的LDA实际上讲的是Fisher linear discriminant analysis

在machine learning领域，PCA和LDA都可以看成是数据降维的一种方式。但是PCA是unsupervised，也就是说不需要知道sample对应的label，而LDA是supervised，需要知道每一个数据点对应的label。下面分别解释PCA和LDA的基本原理

1.PCA

PCA被广泛用于数据降维处理，在PRML书上写道，PCA有两种定义的方式，其中一种是将PCA定义为一种正交投影，使得原始数据在投影子空间的各个维度的方差最大化。下面我们就以这个定义来推导PCA。

考虑一组观测数据{ $x_n$ }, $n = 1,...,N$ ,其中 $x_n$ 是 $D$ 维向量，我们的目标就是把数据投影到一个更低的 $M$ 维空间上，并且保证原始数据在这个子空间的各个方向上的方差最大化。

首先假设 $M = 1$ ，也就是把所有数据投影到 $D$ 维空间上的一条直线上。我们可以利用一个 $D$ 维单位向量 $u_1$ 来表示这条直线。原始数据集 $x_n$ 的均值向量 $\bar{x}$ 可以表示成

x ¯ = 1 N \sum n = 1 N x n

$\bar{x} = \frac{ 1 }{ N } \sum_{n = 1}^{N}x_n$
那么投影之后的均值向量可以表示成

uT1x¯ $u_1^T \bar{x}$ ,投影之后的方差可以表示成

1 N \sum n = 1 N {u T 1 x n - u T 1 x ¯} 2 = u T 1 S u 1

$\frac{ 1 }{ N } \sum_{n = 1}^{N}{\{u_1^Tx_n - u_1^T\bar{x}\}^2} = u_1^TSu_1$
其中

S $S$ 表示原始数据的协方差矩阵

S = 1 N \sum n = 1 N (x n - x ¯

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。