主成分分析法(PCA)
本篇文章仅为本人加深图像处理算法的理解,有不严谨的地方,不作为学习的参考。
参考书籍:精通Matlab数字图像处理与识别,张铮等,人民邮电出版社。
PCA的实质:就是在尽可能好地代表原始数据的前提下,通过线性变换,将高维样本数据投影到低维空间中。
主成分分析法的适用范围:主要用于高维数据的降维,不适合样本的分类。
1.1 理论推导
基本思想:代表样本的数据应该和所有的样本数据的距离最小。
推导过程:
1)“0维”,即样本数据映射到一个点上。寻找最佳数据点,设其为 x 0 x_{0} x0,则最佳点到样本数据的距离和为:
D ( x 0 ) = ∑ i = 0 n − 1 ( x 0 − x i ) 2 D\left (x_{0} \right )=\sum_{i=0}^{n-1}\left ( x_{0}-x_{i} \right )^{2} D(x0)=∑i=0n−1(x0−xi)2
设 m = 1 n ∑ i = 0 n − 1 ( x i ) m=\frac{1}{n}\sum_{i=0}^{n-1}\left ( x_{i} \right ) m=n1∑i=0n−1(xi)
则
D ( x ( 0 ) ) = ∑ i = 0 n − 1 ( ∣ ( x 0 − m ) − ( m − x i ) ∣ ) 2 = ∑ i = 0 n − 1 ( x 0 − m ) 2 − 2 ∑ i = 0 n − 1 ( x 0 − m ) ( m − x i ) + ∑ i = 0 n − 1 ( m − x i ) 2 = ∑ i = 0 n − 1 ( x 0 − m ) 2 + ∑ i = 0 n − 1 ( m − x i ) 2 D\left ( x\left ( 0 \right ) \right )=\sum_{i=0}^{n-1} \left ( | \left ( x_{0} -m\right ) -\left ( m-x_{i} \right )|\right )^{2}\\=\sum_{i=0}^{n-1} \left ( x_{0} -m\right ) ^{2}-2\sum_{i=0}^{n-1} \left ( x_{0} -m\right )\left ( m-x_{i} \right )+\sum_{i=0}^{n-1}\left ( m-x_{i} \right )^{2}\\=\sum_{i=0}^{n-1} \left ( x_{0} -m\right ) ^{2}+\sum_{i=0}^{n-1}\left ( m-x_{i} \right )^{2} D(x(0))=∑i=0n−1(∣(x0−m)−(m−xi)∣)2=∑i=0n−1(x0−m)2−2∑i=0n−1(x0−m)(m−xi)+∑i=0n−1(m−xi)2=∑i=0n−1(x0−m)2+∑i=0n−1(m−xi)2
所以,当 x 0 = m x_{0} =m x0=m时,距离和最小,最佳数据点为样本数据的均值。
样本数据压缩成一个点,无法对其进行分类。所以不现实。
2)“1维”,样本数据映射到一直线上。此直线必过样本数据均值点,所以令此直线为 x → = m + a e → \overrightarrow{x}=m+a\overrightarrow{e} x=m+ae.a为远离均值点的距离, e → \overrightarrow{e} e为单位向量。
则样本 x i x_{i} xi在直线 x → \overrightarrow{x} x上的投影 a i a_{i} ai.
a i = ∣ x i − m ∣ ⋅ c o s θ a_{i}=\left | x_{i} -m \right |\cdot cos\theta ai=∣xi−m∣⋅cosθ
因为 ∣ e → ∣ = 1 \left | \overrightarrow{e} \right |=1 ∣∣∣