主成分分析
摘要
在数据挖掘中,一个常见的问题就是特征选择或特征提取,理论上我们要选择与原始数据空间相同的维数。但是为了简化运算,设计一种变换使得数据集由维数较少的“有效”特征来表示。找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。
关键词:特征选择,降维
1.问题描述
下表为我国各地区普通高等教育发展评价表,在此我们选取了10个指标来评价30个省市他们的普通高等教育发展。请分析主要成分并计算主成分综合得分。
2.基本术语解释及基本理论阐述
(1)、矩阵的特征值和特征向量
若A为n阶实矩阵,如果存在实数λ与n维非零列向量X,使得AX=λX,则称λ是矩阵A的特征值,X是对应于特征值λ的特征向量。
(2)、协方差矩阵
协方差矩阵的每个元素是各个向量元素之间的协方差。假设X是以n个标量随机变量组成的列向量,并且μk是其第k个元素的期望值,即μk=E[Xk],协方差矩阵然后被定义为:
(3)、标准差
标准差,在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。标准差公式如下: