PCA原理与推导(pca本质上是一种数据压缩的方法)
在图1中,通常我们要存储A这个点需要x和y两个坐标。假设图中共有n个点,那就需要2n个参数。A在向量
u
→
\overrightarrow{u}
u上的投影点为
A
′
A'
A′,在
u
→
\overrightarrow{u}
u已知的前提下,
A
′
A'
A′仅需要一个参数就可以表示了,这个参数就是
O
A
′
OA'
OA′的长度。(即
A
′
A'
A′在
u
→
\overrightarrow{u}
u上的坐标)用
A
′
A'
A′代替A,图中的点都这样来表示,这样图中的点的存储只需要n+2个参数即可。其中2是用来确定
u
→
\overrightarrow{u}
u的参数个数。我们找到合适的方向
u
→
\overrightarrow{u}
u是的原始点与投影点之间的误差最小。
-
样本点中心化
首先要将样本点移到中心点来(算均值,然后将所有样本点的x-均值) -
求误差
x → \overrightarrow{x} x投影到 u → \overrightarrow{u} u上,误差为 e → \overrightarrow{e} e:
e → \overrightarrow{e} e= x → \overrightarrow{x} x-Prj x → \overrightarrow{x} x
= x → \overrightarrow{x} x- < \lt < x → \overrightarrow{x} x, u → \overrightarrow{u} u > \gt > u → \overrightarrow{u} u