PCA主成分分析

本文介绍了PCA主成分分析在数据挖掘中的作用,通过解释基本理论,包括特征值、特征向量和协方差矩阵,阐述数据降维的过程。在案例中,PCA用于降低30个省市高等教育发展的10个指标数据维度,最终得到4个主成分,展示了PCA在简化复杂数据结构和计算中的效用。
摘要由CSDN通过智能技术生成

主成分分析

摘要

在数据挖掘中,一个常见的问题就是特征选择或特征提取,理论上我们要选择与原始数据空间相同的维数。但是为了简化运算,设计一种变换使得数据集由维数较少的“有效”特征来表示。找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。

关键词:特征选择,降维

1.问题描述

下表为我国各地区普通高等教育发展评价表,在此我们选取了10个指标来评价30个省市他们的普通高等教育发展。请分析主要成分并计算主成分综合得分。


2.基本术语解释及基本理论阐述

(1)、矩阵的特征值和特征向量

若A为n阶实矩阵,如果存在实数λ与n维非零列向量X,使得AX=λX,则称λ是矩阵A的特征值,X是对应于特征值λ的特征向量。

(2)、协方差矩阵

协方差矩阵的每个元素是各个向量元素之间的协方差。假设X是以n个标量随机变量组成的列向量,并且μk是其第k个元素的期望值,即μk=E[Xk],协方差矩阵然后被定义为:


(3)、标准差

标准差,在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。标准差公式如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值