主成分分析法(PCA)

本文详细介绍了主成分分析法(PCA)的理论推导,从"0维"到"1维"再到"多维"的扩展,阐述PCA的实质是通过线性变换将高维数据降维。PCA适用于高维数据降维,不适用于分类。接着,文章给出了PCA在MATLAB中的实现,包括程序架构和具体代码,并讨论了快速PCA的计算方法。
摘要由CSDN通过智能技术生成

主成分分析法(PCA)

本篇文章仅为本人加深图像处理算法的理解,有不严谨的地方,不作为学习的参考。
参考书籍:精通Matlab数字图像处理与识别,张铮等,人民邮电出版社。

PCA的实质:就是在尽可能好地代表原始数据的前提下,通过线性变换,将高维样本数据投影到低维空间中。
主成分分析法的适用范围:主要用于高维数据的降维,不适合样本的分类。

1.1 理论推导

基本思想:代表样本的数据应该和所有的样本数据的距离最小。
推导过程:
1)“0维”,即样本数据映射到一个点上。寻找最佳数据点,设其为 x 0 x_{0} x0,则最佳点到样本数据的距离和为:
D ( x 0 ) = ∑ i = 0 n − 1 ( x 0 − x i ) 2 D\left (x_{0} \right )=\sum_{i=0}^{n-1}\left ( x_{0}-x_{i} \right )^{2} D(x0)=i=0n1(x0xi)2

m = 1 n ∑ i = 0 n − 1 ( x i ) m=\frac{1}{n}\sum_{i=0}^{n-1}\left ( x_{i} \right ) m=n1i=0n1(xi)

D ( x ( 0 ) ) = ∑ i = 0 n − 1 ( ∣ ( x 0 − m ) − ( m − x i ) ∣ ) 2 = ∑ i = 0 n − 1 ( x 0 − m ) 2 − 2 ∑ i = 0 n − 1 ( x 0 − m ) ( m − x i ) + ∑ i = 0 n − 1 ( m − x i ) 2 = ∑ i = 0 n − 1 ( x 0 − m ) 2 + ∑ i = 0 n − 1 ( m − x i ) 2 D\left ( x\left ( 0 \right ) \right )=\sum_{i=0}^{n-1} \left ( | \left ( x_{0} -m\right ) -\left ( m-x_{i} \right )|\right )^{2}\\=\sum_{i=0}^{n-1} \left ( x_{0} -m\right ) ^{2}-2\sum_{i=0}^{n-1} \left ( x_{0} -m\right )\left ( m-x_{i} \right )+\sum_{i=0}^{n-1}\left ( m-x_{i} \right )^{2}\\=\sum_{i=0}^{n-1} \left ( x_{0} -m\right ) ^{2}+\sum_{i=0}^{n-1}\left ( m-x_{i} \right )^{2} D(x(0))=i=0n1((x0m)(mxi))2=i=0n1(x0m)22i=0n1(x0m)(mxi)+i=0n1(mxi)2=i=0n1(x0m)2+i=0n1(mxi)2
所以,当 x 0 = m x_{0} =m x0=m时,距离和最小,最佳数据点为样本数据的均值。
样本数据压缩成一个点,无法对其进行分类。所以不现实。
2)“1维”,样本数据映射到一直线上。此直线必过样本数据均值点,所以令此直线为 x → = m + a e → \overrightarrow{x}=m+a\overrightarrow{e} x =m+ae .a为远离均值点的距离, e → \overrightarrow{e} e 为单位向量。
则样本 x i x_{i} xi在直线 x → \overrightarrow{x} x 上的投影 a i a_{i} ai.
a i = ∣ x i − m ∣ ⋅ c o s θ a_{i}=\left | x_{i} -m \right |\cdot cos\theta ai=ximcosθ
因为 ∣ e → ∣ = 1 \left | \overrightarrow{e} \right |=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值