17.Unsupervised Learning-Linear Methods

最新推荐文章于 2022-01-12 16:50:52 发布

Aamax

最新推荐文章于 2022-01-12 16:50:52 发布

阅读量197

点赞数 1

分类专栏：深度学习_李宏毅课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xjtuse123/article/details/90375488

版权

深度学习_李宏毅课程专栏收录该内容

30 篇文章 1 订阅

订阅专栏

Unsupervised learning指训练集都没有label

无监督学习主要分为两类，一种是聚类（Clustering）&维数约减（Dimension Reduction），能够使复杂变简单，化繁为简；另一种是生成（Generation），无中生有。本章主要讲解前者。

1.聚类（Clustering）

Clustering分为：1) K-means 2) HAC

1.1 K-means

K-means是一种比较基本的分类方法。算法描述如下：

1.2 hierarchical agglomerative clustering(HAC)层次凝聚聚类

首先是建立一棵树，其想法有点类似哈弗曼编码,先找最相近的两个连在一起，然后取平均，依次类推找相似连接在一起（类似哈弗曼树），第二部是选择一个阈值，最后根据阈值一刀切，例如蓝色的那条线就将这五个样本分成了三个类(①②、③、④⑤)。红色的那条线就将这五个样本分成了两个类(①②③、④⑤)。

2.Dimension Reduction

Dimension Reduction分为：1)Feature selection 2)PCA

2.1 Feature selection(选取最有用维度，拿掉无用维度)

2.2 主成分分析(Principal Component Analysis, 简称PCA)

当PCA只有一维的时候，我们是找出让z1区分度最大的w1, z=Wx可以看做是x在W上的投影

同理，如果有两维的话，找出让除z1以外z2区分度最大的w2,

数学推导：

将var（z1）进行转化后可以得到下图所示的式子：

即 find w',使得(w')转置*S*w'最大化，有人可能会说w'无穷大不就好了？不，w'满足(w')Tw'=1

结论：利用lagrange multiplier我们可以发现得到的w1是S的特征向量，其对应的特征值α是最大值。

结论：当降维到两维时，得到的w2是S第二大特征值对应的特征向量。

降维后得到的z其协方差矩阵是对角矩阵

3.PCA示例------手写数字辨识

PCA可以应用在手写数字辨识中，手写数字是由一些basic component组成的，每个component是一个vector，于是每张图像可以用这些component加权表示。

我们的任务是找出k个component使得reconstruction error最小

矩阵化可以表示成这样

利用SVD发现X和X转置乘积的前k个最大特征值对应的特征向量就是其解

实际上PCA也可以表示出网络的形式，这种网络我们称为自编码器

4. PCA的优点：

①减少了维数（Dimensionality reduction ）

②捕获了最终要的组件（Capture the components that vary the most from the original data ）

③最小化重构误差（Minimum reconstruction error）

④去相关性（Decorrelation）

PCA的缺点：

多个类别的数据混合在一起用PCA会导致无法分开，对于非线性的曲面，效果非常不好。此时可考虑LDA，一种考虑标签的有监督的降维方法。

5.总结

对于unlabel data ，可以使用PCA进行降维操作。

对于label data ，可以使用LDA进行降维操作。

PCA权重值如果为负值，得到的主要成份不一定是简单组成成分，可以使用NMF进行计算。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
17.Unsupervised Learning-Linear Methods

Unsupervised learning指训练集都没有label 无监督学习主要分为两类，一种是聚类（Clustering）&维数约减（Dimension Reduction），能够使复杂变简单，化繁为简；另一种是生成（Generation），无中生有。本章主要讲解前者。1.聚类（Clustering） Clustering分为：1) K-m...
复制链接

扫一扫

专栏目录

Aamax CSDN认证博客专家 CSDN认证企业博客

码龄6年

123: 原创

5万+: 周排名

91万+: 总排名

24万+: 访问

: 等级

3849: 积分

240: 粉丝

591: 获赞

74: 评论

1665: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python模块及不同目录下导入模块方法
maximgorky: 写的太清楚了，真好
Python模块及不同目录下导入模块方法
g回话: 写的很清晰
Python模块及不同目录下导入模块方法
tongtongtheBEST: 什么叫做先跳到mycompany目录下面，直接可以调用model1.py 这啥意思
Python模块及不同目录下导入模块方法
qqMrrz: 我自定义的包，和测试的文件放置的目录是不同目录，但是目录是同i一个层级，也在包的目录下放置了init文件，但是在import的时候会报错，除非把包的目录修改为source root就没问题，这是为啥，求解答，感谢
预处理命令
weixin_42563353: main.c 只是引入了 test.h，却没有引入 test.cpp，编译时各自编译源文件，最后再链接起来，所以最后可以执行？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。