2020李宏毅学习笔记——41.Unsupervised learning Linear Methods

最新推荐文章于 2021-08-15 20:32:24 发布

是汤圆啊

最新推荐文章于 2021-08-15 20:32:24 发布

阅读量292

点赞数

本文链接：https://blog.csdn.net/weixin_44554337/article/details/107132162

版权

每个读者的大脑就是一套独立的无监督学习系统,根据各自的识别模型/方式来把实例进行分类.

一.无监督学习概念

分为两类：
（1）聚类 & 降维（化繁为简）：将多个输入抽象成一种类型
（2）Generation（无中生有）：输入一个code，得到一个样本
一个上来就分类，一个是先画快在分类
大树变成抽象的树

二，Clustering：聚类

聚类中最常用的方法有：
（1）k-means：a.随机初始化k个类的中心点；b.每个样本以最靠近的中心点的所属类为类标签；c.根据新得到的分类更新中心点；d.重复步骤b、c，直到模型收敛。
（2）Hierarchical Agglomeratiive clustering （HAC）层次聚类方法：a.根据样本之间的两两相似程度来建立一颗树；

K-means做聚类，需要先人为确定要聚类成多少类。K代表多少类。K自己定，

数据集X，里面N个unlabel的data
初始化每一个聚类的中心（随机从data里挑一些出来即可）
遍历所有data，计算每一个data和这些中心的距离。如果距离近的话则属于此中心所代表的类别。
更新中心，把所有属于 i 类的data加起来，取平均。
重复3、4步。
在这里插入图片描述

三：HAC

由下往上看。

计算5个data两两之间的相似性，将比较像的data做平均，得到它们之间的上一层节点。重复这个过程。
人为地选择要切在哪里。比如切在红线，则代表前三个data和后两个data分为两类。如果且在蓝色则代表前两个data、第三个data、后两个data，总共分为三类。
在这里插入图片描述

四：Dimension Reduction降维

刚才做聚类时，是强制性的把某一个data归类于某一个class。这样时不准确的。因为一个data可能同时拥有多个class的特性，所以应该把它写成如图中vector一样。

这种从高维的vector（比如图像）转化成低维的vector，就叫做Dimension Reduction 。有function可以转，
此方法适用场合有限。如果data point的某一维都不变，就没有存在意义，可以去掉。

通过这种方式能够将样品从属性表示，到特征表示这个比较低维的空间中。方法有特征选择和PCA。

4.1做Dimension Reduction的好处
左边是data以螺旋状分布在3维空间里。但其实如右边的样子，以2维的空间就可以描述这些信息，这样就把简化了问题。
在这里插入图片描述

五：PCA

（1）首先要让样本在所投影到的维度上的方差尽量大
在这里插入图片描述
（2）PCA多维合并的优化函数，w的转置乘以协方差矩阵再乘以w，如图所示，找到一个w使得整个目标函数最大化。

（3）求解该优化函数，可以用neural network的方式，梯度递减；也可以用传统经典方法对这个函数进行求解，其中函数的解为协方差的最大特征值所对应的特征向量。
𝑤1是协方差矩阵S对应最大特征值f1的特征向量
在这里插入图片描述
（4）求解下一个维度，其中下一个维度的解为协方差矩阵所对应的第二大的特征值所对应的特征向量，因为协方差矩阵的特征向量依次正交。

PCA decorrelation：投影后数据在新的坐标的Cov各个维度之间是不相关的，也就是矩阵对角线外都为0，这样在做实现模型的时候可以减少参数，比如高斯假设的时候，各轴之间相关为0，那么减少了很多参数。
在这里插入图片描述

是汤圆啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020李宏毅学习笔记——41.Unsupervised learning Linear Methods

s
复制链接

扫一扫