多元分析笔记(基于matlab)——主成分分析

多元分析笔记(基于matlab)——主成分分析

前言

这是我初次尝试在csdn上写这种文章,一来是为了巩固复习学过的知识,记录思考过程中的一些关键点,便于后期二次学习;二来是为了能够分享自己的一些见解,也希望能对正在学习这一知识的你能有些许帮助吧。(若笔记中有不当或错误之处,欢迎指正批评!愿与大家共同进步!)——尝试改变,从现在开始!

主成分分析介绍

主成分分析主要是为了能够用较少的变量去解释原数据组中的大部分变异(——《数学建模算法与应用》),简单点说,就是从一组对象的多个特征变量当中,选择出最具有代表性、最能诠释对象变化特征的若干个特征变量,则称这若干个特征变量为主成分,但是在实际操作中,一般会把主成分记作这若干个特征变量的加权和。因此可以看到,主成分分析的主要思想,就是降维,利用提取的少数特征变量来表示原来的总体。

主成分分析步骤

①将原有数据进行标准化处理
方式:(特征变量-特征变量样本均值)/特征变量样本标准差
matlab函数:zscore(A),A的每列即为特征变量。

②计算特征变量的相关系数矩阵
方式:相关系数矩阵R=(rij)m行m列,m为总的特征变量个数
第i个变量与第j个变量的相关系数计算公式
上式即为第i个特征变量与第j个特征变量的相关系数计算公式。
matlab函数:corrcoef(B),B为标准化后的样本数据集,每列为一个特征变量的样本数据。

③计算R的特征向量与特征值
方式:可利用matlab方便计算出上述矩阵R的特征值λ1、λ2、λ3…λn,以及他们对应的特征向量n1、n2、n3…nn,此处需将特征值进行从大到小的排序(即λ1>=λ2>=λ3>=…>=λn)
matlab函数:[vec,lamda,rate]=pcacov( R ),R为上述相关系数矩阵,计算结果中,vec为特征向量,lamda为特征值,rate为每个主成分的贡献率(我觉得可以简单理解为在数据中的影响力、代表性),此处特征值已由该函数自动从大到小排序了,所以不需要再次进行排序操作。

④选择主成分
方式:首先计算各主成分(前文特征值对应的特征向量)的累计贡献率,当时累计贡献率达到至少85%时,可认为此时用于计算累计贡献率的主成分可以描述总体了,便选定这些主成分用于综合分析
matlab函数:cumsum(rate),rate即为前文计算得到的各特征值的单个贡献率,也即各主成分的单个贡献率。

⑤计算综合评价值
方式:对于标准化后的样本数据集,将每个样本的特征变量样本矩阵(即样本矩阵的行矩阵)与主成分相乘,即得到每个样本的不同主成分数值,再将不同主成分数值分别乘以其对应的单个贡献率后求和,即可得到每个样本的综合评价分值,将综合评分值进行排序后的结果即为主成分分析法下的综合评价排序。
综合得分计算公式
上式中,Z为综合得分,bj为第j个主成分的单个贡献率,也称为信息贡献率。

⑥根据排序结果进行分析
方式:大概分析方法:对于排序中在前面位置的对象,说明在相应的特征变量中占据优势,以评估地区教育水平的每十万人口教师数这一特征变量为例,地区为样本对象,越排在前面就说明该地区的每十万人口教师数越多(即越占优势)。

总结

本文是对主成分分析法的简单介绍以及具体做法的简略概括,具体的操作步骤以及结合案例的说明后续会进行详细分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值