数据降维-主成分分析PCA

1.背景:

在以前计算能力还很弱的年代,我们要分析经济数据是一件很困难的事情,所以我们需要对指标特征进行降维;
在这里插入图片描述

2.数据降维的意义:

一般我们降维的特征数据彼此之间是存在一定的相关性的,
二维降至一维数据:
在这里插入图片描述

复杂指标缩减至二维指标:
1.当指标纬度较高时,并不方便我们进行可视化展示,所以我们需要对数据指标进行降维。
2.使得数据集更易使用。
3.降低算法的计算开销。
4.去除噪声。
5.使得结果容易理解。
在这里插入图片描述
在这里插入图片描述
可视化示例:
这样就非常方便我们分析发达国家,发展中国家等国家的综合实力的判断了
在这里插入图片描述

3.数据降维的方式(PCA)

1.PCA:

1.全称Principal components analysis(主成分分析技术)
2.其余算法:奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

2.目的:

寻找K(K<n)维数据,使n维空间降至K维空间,并且损失函数尽量最小;(n->k:找到一个n维空间的向量,投影到u1…u2,uk形成的空间上)

3.思路:

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与原来的数据本身是密切相关的。

3.1为什么要相互正交呢?

正交的特征向量使得在新的特征空间中,每个特征之间的协方差为零,这意味着它们是无关的,这样可以更好地表达数据的方差。因为在 PCA 中,我们希望找到方差最大的方向作为主成分,而相互正交的向量正是保证了这一点。——>彼此之间是正交的,这样可以最大程度地保留原始数据的信息,并且让新的特征之间尽可能地独立,避免冗余信息。这也就意味着,通过正交化处理后的特征向量之间不会存在线性相关性,从而减少了特征之间的多重共线性问题

3.2举个例子:如果是非正交会怎么样?

假设我们有一个二维数据集,其中的数据点分布在 x 轴和 y 轴方向上。我们希望通过 PCA 将这个数据集从二维空间映射到一维空间。
首先,让我们看看如果特征向量不是正交的情况下会发生什么。假设我们选择两个非正交的特征向量作为主成分,分别表示 x 轴方向和 y 轴方向。如果这两个特征向量不是正交的,意味着它们之间存在一定的夹角,那么在新的特征空间中,这两个特征之间会有一定的关联性
现在,假设我们要在这个新的特征空间中找到一个方向,使得数据的方差最大化。但由于这两个特征之间存在关联性,我们无法找到一个方向同时使得 x 轴方向和 y 轴方向上的方差都最大化。因此,我们无法准确地找到数据的主要方向,也就无法有效地降低数据的维度。
相反,如果我们选择的特征向量是正交的,那么它们之间不存在关联性,我们就可以在新的特征空间中找到一个方向,使得数据的方差最大化。这样,我们就可以准确地找到数据的主要方向,有效地降低数据的维度,同时尽量保留数据的信息
因此,PCA 中要求特征向量相互正交,这样可以更好地提取数据的主要特征,减少冗余信息,从而实现降维的目的。

3.3如何找到主成分方向呢?

事实上:通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。

所以,PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

(特征值分解)流程如下:
**大致思路:**将一个方阵分解特征向量和特征值的形式。这个过程有助于我们理解和分析线性变换的性质以及矩阵的结构;(而分解的K个特征值所对应的K个特征向量所组成的矩阵,可用于转换到新的空间当中实现数据特征的降维
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 25
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fairy要carry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值