机器学习实战学习笔记（十二）利用PCA来简化数据

最新推荐文章于 2020-01-31 13:19:57 发布

Hold_My_Own

最新推荐文章于 2020-01-31 13:19:57 发布

阅读量453

点赞数

分类专栏：机器学习文章标签： PCA 机器学习

本文链接：https://blog.csdn.net/wozaipermanent/article/details/103070066

版权

PS：该系列数据都可以在图灵社区（点击此链接）中随书下载中下载（如下）
在这里插入图片描述

1 降维技术

对数据进行简化的原因：

使得数据集更易使用；
降低很多算法的计算开销；
去除噪声；
使得结果易懂。

主成分分析（Principal Component Analysis，PCA）： 在PCA中，数据从原来的坐标系转换到了新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复，重复次数为原始数据中特征的数目。我们会发现，大部分方差都包含在最前面的几个新坐标轴中。因此，我们可以忽略余下的坐标轴，即对数据进行了降维处理。
因子分析（Factor Analysis）： 在因子分析中，我们假设在观察数据的生成中有一些观察不到的隐变量（latent variable）。假设观察数据是这些隐变量和某些噪声的线性组合。那么隐变量的数据可能比观察数据的数目少，也就是说通过找到隐变量就可以实现数据的降维。
独立成分分析（Independent Component Analysis，ICA）： ICA假设数据是从N个数据源生成的，这一点和因子分析有些类似。假设数据为多个数据源的混合观察结果，这些数据源之间在统计上是相互独立的，而在PCA中只假设数据是不相关的。同因子分析一样，如果数据源的数目少于观察数据的数目，则可以实现降维过程。

2 PCA

                                               主成分分析
优点：降低数据的复杂性，识别最重要的多个特征。
缺点：不一定需要，且可能损失有用信息。
适用数据类型：数值型数据。

2.1 移动坐标轴

第一个主成分就是数据差异性最大（即方差最大）的方向提取出来的，第二个主成分则来自于数据差异性次大的方向，并且该方向与第一个主成分方向正交。通过数据集的协方差矩阵及其特征值分析，我们就可以求得这些主成分的值。
一旦得到了协方差矩阵的特征向量，我们就可以保留最大的N个值。这些特征向量也给出了N个最重要特征的真实结构。我们可以通过将数据乘上这N个特征向量而将它转换到新的空间。

2.2 在Numpy中实现PCA

将数据转换成前N个主成分的伪代码大致如下：

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最上面的N个特征向量
将数据转换到上述N个特征向量构建的新空间中

建立pca.py文件，编写如下代码用于计算PCA，并在python命令行进行测试：

import numpy as np
import matplotlib
import matplotlib.pyplot as plt

def loadDataSet(fileName, delim='\t'):
    with open(fileName, 'r') as fileObject:
        stringArr = [line.strip().split(delim)

最低0.47元/天解锁文章

Hold_My_Own

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战学习笔记（十二）利用PCA来简化数据

PS：该系列数据都可以在图灵社区（点击此链接）中随书下载中下载（如下）1 降维技术对数据进行简化的原因：使得数据集更易使用；降低很多算法的计算开销；去除噪声；使得结果易懂。主成分分析（Principal Component Analysis，PCA）：在PCA中，数据从原来的坐标系转换到了新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方...
复制链接

扫一扫

专栏目录