PCA详解-并用scikit-learn实现PCA压缩红酒数据集

最新推荐文章于 2024-08-17 17:49:51 发布

Xurtle

最新推荐文章于 2024-08-17 17:49:51 发布

阅读量1.4w

点赞数 9

分类专栏：机器学习机器学习算法文章标签：机器学习 PCA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xlinsist/article/details/51332074

版权

本文详细介绍了PCA（主成分分析）的数学原理，包括标准差、方差、协方差、特征向量和特征值。通过葡萄酒数据集，逐步展示了PCA的实现过程，包括数据标准化、计算协方差矩阵、特征变换，并使用scikit-learn库进行PCA。最终，PCA用于降维和数据可视化，证明了PCA在保留大部分信息的同时，能简化数据结构，便于分类。

摘要由CSDN通过智能技术生成

引言

在这篇文章中，我会介绍一些PCA背后的数学概念，然后我们用Wine数据集作为实例，一步一步地实现PCA。最后，我们用更加强大的scikit-learn方便快速地实现PCA，并用逻辑回归来拟合用PCA转换后的数据集。为了让大家更好地理解PCA，整篇文章都贯穿着实例，现在，让我们享受这篇文章吧。

标准差（Standard Deviation）

在引入标准差之前，我先介绍一下平均值，假设我们有个样本集X，其中的样本为 $X = [1,2,3,4,5,6]$ ，求平均值的公式如下：

X ¯ = \sum n i = 1 X i n

$\bar{X} = \frac{\sum_{i=1}^nX_i}{n}$

$\bar{X}$ ：平均值
$n$ ：样本的个数
$X_i$ ：第 $i$ 个样本

X的平均值为：

X ¯ = \sum 6 i = 1 X i 6 = 1 + 2 + 3 + 4 + 5 + 6 6 = 3.5

$\bar{X} = \frac{\sum_{i=1}^6X_i}{6} = \frac{1+2+3+4+5+6}{6} = 3.5$

求平均值的python代码如下：

import numpy as np
X=np.array([1,2,3,4,5,6])
np.mean(X)

不幸的是平均值并没有告诉我们关于样本集的很多信息。比如[0,8,12,20]和[8,9,11,12]的平均值都是10，但是它们的数据分散程度有着明显的不同。因此，我们并不满足于仅仅求出一个小小的平均值，它只是一个我们到达伟大目标的一个垫脚石。下面让我们引入标准差，它度量着数据的分散程度。它的公式如下：

s = \sum n i = 1 ( X i - X ¯ ) 2 n - 1 - - - - - - - - - - - - - - \sqrt

$s = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1}}$

上面的公式测量着样本到样本均值的平均距离。你可能会想，分母为什么不是

最低0.47元/天解锁文章

关注

9
点赞
踩
62

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。