机器学习实战—利用PCA来简化数据

本文介绍了主成分分析(PCA)作为一种降维技术,其原理是通过选择数据中方差最大的方向作为新坐标轴,以实现数据简化。PCA的优点包括降低数据复杂性和识别关键特征,但可能会损失信息。文章详细阐述了PCA的坐标轴变换、目的、策略和实现方法,以及如何选择特征向量。最后,通过示例展示了PCA在半导体制造数据降维中的应用。
摘要由CSDN通过智能技术生成

一、降维技术

在低维下,数据更容易处理。
对数据简化有如下原因:
1、使得数据集更易使用。
2、降低很多算法的计算开销。
3.去除噪声。
4.使得结果更易懂。

第一种降维的方法是主成分分析(PCA),在PCA中,数据从原来的坐标系中转换到了新的坐标系,新坐标系的选择由数据本身决定。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,大部分方差都包含在最前面的几个新坐标轴中,因此实现了数据降维。

第二种降维技术是因子分析,假设观察数据是由隐变量和某些噪声的线性组合,那么只查找隐变量就可以实现数据降维。

第三种降维技术是独立成分分析(ICA),ICA假设数据是从N个数据源生成的,假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,而在PCA只假设数据是不相关的,不相关和独立是两个概念,所以PCA和ICA是不同的。

二、PCA

优点:降低数据的复杂性,识别最重要的多个特征。
缺点:不一定需要,且可能损失有用信息。

1、移动坐标轴

在PCA中,数据从原来的坐标系中转换到了新的坐标系,新坐标系的选择由数据本身决定。

而描述线性变换也很简单,通常一组线性无关向量即可,称为基。基可以理解为构建向量世界的基础,任何向量都可以利用它线性组合而成。

我们利用最多的就是i帽和j帽(即正交基(1,0),(0,1)注:一般描述为列向量,为了方便,本章的向量都为列向量)

如下图所示,α=(3,2)向量其实具体应该描述为α=3i+2j
这里写图片描述

既然如此,假如我们不再使用常规的i帽和j帽最为基,例如小明同学非要换一组其他的(例如将i,j旋转90°,其实这就是一种线性变换)基,那么在他看来,原来的α该怎么描述呢?

可能有人会问,α并未变化,产生差别的原因是?在这里,我们的视角和小明的视角并不一样,更进一步说,是因为我们和小明选取的坐标(参考)系不一样。我们看到的α是在xy坐标系下3倍i帽与2倍j帽的线性组合,而小明看到的是旋转后的坐标系,这时我们需要利用小明选取的基来描述α。

具体说来,可以有两种方法求解“小明眼中α的坐标”:
1、将α投影到新基上,得出投影长度(有方向,即可正负)即为坐标;
2、通过坐标变换公式求得

先说方法一,先说明一下投影的含义,一方面,从几何意义上,如下图所示,即将向量向另一向量所在直线做垂线,则投影长度即为蓝色向量与垂线交点的向量长度;另一方面,内积与投影关系密切,有A·B=|A|cos(a)|B|,这里设A为投影向量,则B为被投影向量,则|A|cos(a)为投影矢量长度,|B|为被投影向量的模。再进一步,如果我们假设B的模为1,即让|B|=1,那么就变成了:A·B=|A|cos(a)

简而言之,如果设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!

继续说下面这幅图,图中基由(1,0),(0,1)转换为(1/√2,1/√2),(-1/√2,1/√2)
注:这里基的坐标都是以我们视角的坐标系来看的

那么,新基坐标系下,α的坐标计算为: 这里写图片描述

即下图所示:这里写图片描述

一般说来,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A(上例中我们把基(1/√2,1/√2),(-1/√2,1/√2)按行排列),然后将向量按列组成矩阵B&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值