17.Unsupervised Learning-Linear Methods

Unsupervised learning指训练集都没有label

       无监督学习主要分为两类,一种是聚类(Clustering)&维数约减(Dimension Reduction),能够使复杂变简单,化繁为简;另一种是生成(Generation),无中生有。本章主要讲解前者。

1.聚类(Clustering)

        Clustering分为:1) K-means   2) HAC

        1.1 K-means

       K-means是一种比较基本的分类方法。算法描述如下:

   1.2 hierarchical agglomerative clustering(HAC)层次凝聚聚类

       首先是建立一棵树,其想法有点类似哈弗曼编码,先找最相近的两个连在一起,然后取平均,依次类推找相似连接在一起(类似哈弗曼树),第二部是选择一个阈值,最后根据阈值一刀切,例如蓝色的那条线就将这五个样本分成了三个类(①②、③、④⑤)。红色的那条线就将这五个样本分成了两个类(①②③、④⑤)。

2.Dimension Reduction

      Dimension Reduction分为:1)Feature selection  2)PCA

      2.1 Feature selection(选取最有用维度,拿掉无用维度)

      2.2 主成分分析(Principal Component Analysis, 简称PCA)

       当PCA只有一维的时候,我们是找出让z1区分度最大的w1, z=Wx可以看做是x在W上的投影

      同理,如果有两维的话,找出让除z1以外z2区分度最大的w2,

数学推导:

       将var(z1)进行转化后可以得到下图所示的式子:

      即 find w',使得(w')转置*S*w'最大化,有人可能会说w'无穷大不就好了?不,w'满足(w')Tw'=1

       结论:利用lagrange multiplier我们可以发现得到的w1是S的特征向量,其对应的特征值α是最大值。

      结论:当降维到两维时,得到的w2是S第二大特征值对应的特征向量。

      降维后得到的z其协方差矩阵是对角矩阵

3.PCA示例------手写数字辨识

       PCA可以应用在手写数字辨识中,手写数字是由一些basic component组成的,每个component是一个vector,于是每张图像可以用这些component加权表示。

      我们的任务是找出k个component使得reconstruction error最小

       矩阵化可以表示成这样

       利用SVD发现X和X转置乘积的前k个最大特征值对应的特征向量就是其解

       实际上PCA也可以表示出网络的形式,这种网络我们称为自编码器

4. PCA的优点:

      ①减少了维数(Dimensionality reduction )

      ②捕获了最终要的组件 (Capture the components that vary the most from the original data )

      ③最小化重构误差(Minimum reconstruction error)

      ④去相关性(Decorrelation)

      PCA的缺点:

       多个类别的数据混合在一起用PCA会导致无法分开,对于非线性的曲面,效果非常不好。此时可考虑LDA,一种考虑标签的有监督的降维方法。

5.总结

      对于unlabel data ,可以使用PCA进行降维操作。

      对于label data ,可以使用LDA进行降维操作。

      PCA权重值如果为负值,得到的主要成份不一定是简单组成成分,可以使用NMF进行计算。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值