Unsupervised learning指训练集都没有label
无监督学习主要分为两类,一种是聚类(Clustering)&维数约减(Dimension Reduction),能够使复杂变简单,化繁为简;另一种是生成(Generation),无中生有。本章主要讲解前者。
1.聚类(Clustering)
Clustering分为:1) K-means 2) HAC
1.2 hierarchical agglomerative clustering(HAC)层次凝聚聚类
首先是建立一棵树,其想法有点类似哈弗曼编码,先找最相近的两个连在一起,然后取平均,依次类推找相似连接在一起(类似哈弗曼树),第二部是选择一个阈值,最后根据阈值一刀切,例如蓝色的那条线就将这五个样本分成了三个类(①②、③、④⑤)。红色的那条线就将这五个样本分成了两个类(①②③、④⑤)。
2.Dimension Reduction
Dimension Reduction分为:1)Feature selection 2)PCA
2.1 Feature selection(选取最有用维度,拿掉无用维度)
2.2 主成分分析(Principal Component Analysis, 简称PCA)
当PCA只有一维的时候,我们是找出让z1区分度最大的w1, z=Wx可以看做是x在W上的投影
同理,如果有两维的话,找出让除z1以外z2区分度最大的w2,
即 find w',使得(w')转置*S*w'最大化,有人可能会说w'无穷大不就好了?不,w'满足(w')Tw'=1
结论:利用lagrange multiplier我们可以发现得到的w1是S的特征向量,其对应的特征值α是最大值。
结论:当降维到两维时,得到的w2是S第二大特征值对应的特征向量。
3.PCA示例------手写数字辨识
PCA可以应用在手写数字辨识中,手写数字是由一些basic component组成的,每个component是一个vector,于是每张图像可以用这些component加权表示。
我们的任务是找出k个component使得reconstruction error最小
利用SVD发现X和X转置乘积的前k个最大特征值对应的特征向量就是其解
实际上PCA也可以表示出网络的形式,这种网络我们称为自编码器
4. PCA的优点:
①减少了维数(Dimensionality reduction )
②捕获了最终要的组件 (Capture the components that vary the most from the original data )
③最小化重构误差(Minimum reconstruction error)
多个类别的数据混合在一起用PCA会导致无法分开,对于非线性的曲面,效果非常不好。此时可考虑LDA,一种考虑标签的有监督的降维方法。