《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第2章基础篇学习笔记（十三）2.2.2.1主成分分析总结

最新推荐文章于 2021-01-15 14:14:15 发布

wyatt007

最新推荐文章于 2021-01-15 14:14:15 发布

阅读量338

点赞数 1

分类专栏： Python机器学习及实践

本文链接：https://blog.csdn.net/wyatt007/article/details/105769128

版权

本文是《Python机器学习及实践》书中关于主成分分析（PCA）的学习笔记，介绍了PCA的原理、数据描述、编程实践、性能测评和特点。PCA在高维特征降维中有重要作用，通过PCA可以降低数据维度，同时保持数据多样性，常用于图形识别。文中以手写体数字图像为例，展示了PCA处理后的二维分布，并比较了原始和降维特征在支持向量机模型上的性能差异。

摘要由CSDN通过智能技术生成

2.2.2.1主成分分析

0、引言

特征降维是无监督学习的另一个应用，目的有二：

其一，在实际项目中遭遇特征维度非常高的训练样本，而往往又无法借助自己的领域知识人工构建有效特征；

其二，在数据表现方面，无法用肉眼观测超过三个维度的特征。

因此，特征降维不仅重构了有效的低维度特征向量，同时也为数据展现提供了可能。在特征降维的方法中，主成分分析（Principal Component Analysis）是最为经典和实用的特征降维技术，特别在辅助图形识别方面有突出的表现。

1、模型介绍

首先思考两个小例子，这也是解释低维度、信息冗余和PCA功能的。

有一组 $2\times 2$ 的数据 [(1,2),(2,4)] ，假设这两个数据都反映到一个类别（分类）或者一个类簇（聚类）。如果学习模型是线性模型，那么这两个数据其实只能帮助权重参数更新一次，因为它们线性相关，所有的特征数值都只是扩张了相同的倍数；如果使用PCA分析的话，这个矩阵的“秩”是1，也就是说，在多样性程度上，这个矩阵只有一个自由度。

# 代码51：线性相关矩阵秩计算样例
# 导入numpy工具包。
import numpy as np

# 初始化一个2*2的线性相关矩阵。
M = np.array([[1, 2], [2, 4]])
# 计算2*2线性相关矩阵的秩。
np.linalg.matrix_rank(M, tol=None)
print(np.linalg.matrix_rank(M, tol=None))

再比如，图2-16所示的几张花洒图片。是试图将三维物体重新映射在二维照片的过程。在这个过程中，可以有无数种映射的角度。但是，可以通过肉眼判断出，最后一张的角度最为合适也最容易分辨。

其实，也可以把PCA当做特征选择，只是和普通理解的不同，这种特征选择是首先将原来的特征空间做了映射，使得新的映射后特征空间数据彼此正交

最低0.47元/天解锁文章

wyatt007

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第2章基础篇学习笔记（十三）2.2.2.1主成分分析总结

目录2.2.2.1主成分分析0、引言1、模型介绍2、数据描述3、编程实践4、性能测评5、特点分析2.2.2.1主成分分析0、引言特征降维是无监督学习的另一个应用，目的有二：其一，在实际项目中遭遇特征维度非常高的训练样本，而往往又无法借助自己的领域知识人工构建有效特征；其二，在数据表现方面，无法用肉眼观测超过三个维度的特征。因此，特征降维不仅重构了...
复制链接

扫一扫