PCA(Principal Component Analysis)的作用
PCA作为传统机器学习所使用的方法,具有降维的作用,即提取出多样本多维矩阵成分较重的特征维,去除成分较轻的维度,最终把矩阵中的样本的特征放到提取出的特征维度上。具体理解可看视频https://www.youtube.com/watch?v=FgakZw6K1QQ&list=PLGbayVYnCbodh-unkk0rDS98MdsZelTZL&index=3&t=1112s
中文翻译:
【中字】主成分分析法(PCA)| 分步步骤解析 看完你就懂了!_哔哩哔哩_bilibili
计算步骤
一. 数据标准化(预处理)
二. 计算协方差矩阵
即计算样本之间不同维度的方差,图中x,y,z均为样本,
三. 计算协方差矩阵的特征向量和特征值以识别主成分
为什么要计算特征向量和特征值呢?
因为特征向量就是每个新特征维度的基底(单位向量),而特征值则是代表了所有样本在每个维度所对应的“重要程度”(用于筛选维度)
四. 取定特征值较大的特征向量来保留主成分, 重铸原始样本矩阵
1. 选取最大的d个特 征值对应的特征向量,我们将方差较小的特征维度(噪声)抛弃
2. 使用协方差矩阵的特征向量形成的特征值,将数据从原始轴重新定向到主成分表示的轴。可以将原始数据集的转置乘以特征向量的转置来完成。