1、离线PCA
PCA是一种最基本的降维算法,在机器学习中被广泛使用。它是一种线性降维,其基本思想是:
对大量的数据,找到其主成分,主成分的个数小于原始数据的维度,然后将原始数据投影到主成分张成的空间中,
可减小数据的维度。
从上面的描述我们可以总结出:
1. 原始数据(x1,x2,x3,…,xn)(列向量)是一个n维的数据,它是在n个基(1,0,0,…,0),(0,1,0,…,0),… ,(0,0,…0,1)下的表示。
2. 我们要找到k个主成分,每个主成分的维度是n,组成一个n×k的矩阵M,即每个主成分是M的一列。
3. 将原始数据投影到k个主成分张成的空间中,即可得到降维后的k维度的数据(x’1,x’2,x’3,…,x’k)(列向量),即(x’1,x’2,x’3,…,x’k)= (x1,x2,x3,…,xn) M。
可以看到,PCA的主要工作是找到主成分。可是如何寻找呢?下