当维度过高时,数据在维度空间中变得非常稀疏分散,容易产生过拟合的情况。每当增加一维,其实需要数据量指数级的增加。实际问题中,有些维度特征是具有较强的相关性的,比如学生数据中,学生的学历和学位数据信息相同,我们则可以通过主成分分析PCA,筛选得到线性无关的维度信息。
PS:手写笔头钝了,只能写得潦草。说实话这字狗都嫌弃,有看不懂地方留言或wx:llllChrist 探讨吧。
PCA的核心就是将特征空间重构,即将原坐标系下的特征投影到新的向量空间中,重构的方向是让投影后的数据尽量的分散,就是将投影后数据的方差最大化。
1N是1xN的矩阵,H是中心矩阵,顾名思义让数据在坐标系中中心化,H的特点:H^N=H;
这里另||u1||=1,数据(xi-x^-)T已经中心化,且·u1是实数,所以方差直接等于括号内的平方,J内人为添加的1/N,使得J = u1^T ·S ·u1,S是样本方差。通过拉格朗日乘子法,Su1 = λu1,投影向量u1就是特征向量,λ为方差举证的特征值。
投影是为了让样本的各维度特征变得更加清晰,投影后的样本Xi = (xi^T·uk)uk,k=1~p维度;
在经过重构的P维空间中,选取其中q维无关的向量空间,降维后的样本Xi^ = (xi^T·uk)uk,k=1~q维度。
最小的重构代价 = argmin 投影后样本Xi - 降维后样本Xi^ 的平方 ;
同样重构代价J中人为加个1/N,使得J = uk^T · S ·uk,k=q+1~p,S为样本方差矩阵。
主要还是怕自己忘了所以才写个笔记...