机器学习主要类型（二）：无监督学习

最新推荐文章于 2024-08-07 15:33:58 发布

ling零零零

最新推荐文章于 2024-08-07 15:33:58 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习深度学习神经网络无监督学习

本文链接：https://blog.csdn.net/weixin_44949421/article/details/120642461

版权

机器学习专栏收录该内容

16 篇文章 17 订阅

订阅专栏

本文深入探讨了无监督学习的主要类型，包括无监督特征学习如主成分分析、自编码器及其变种，概率密度估计以及聚类方法。介绍了K-Means、学习向量量化和高斯混合模型等聚类算法，强调了它们在数据降维、数据可视化和预处理中的应用。同时，讨论了不同距离度量在聚类过程中的作用。

摘要由CSDN通过智能技术生成

机器学习主要类型（二）：无监督学习 Unsupervised Learning

2.1 无监督特征学习 Unsupervised Feature Learning

一般用来进行降维、数据可视化或监督学习前期的数据预处理

2.1.1主成分分析

在这里插入图片描述

2.1.2稀疏编码

在这里插入图片描述

2.1.3自编码器

在这里插入图片描述

2.1.4稀疏自编码器 Sparse Auto-Encoder

假设中间隐藏层z的维度M大于输入样本x的维度D，并让z尽量稀疏，这就是稀疏自编码器

2.1.5堆叠自编码器 Stacked Auto-Encoder

对很多数据来说，仅使用两层神经网络的自编码器不足以获取一种好的数据表示，为能更好地捕捉到数据的语义信息，在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器，称为堆叠自编码器

2.1.6降噪自编码器 Denoising Auto-Encoder

降噪自编码器通过引入噪声来增加编码鲁棒性的自编码器

——对一个向量x，首先根据一个比例μ随机将x的一些维度的值设置为0，得到一个被损坏的向量x’，然后将被损坏的向量x’输入到自编码器得到编码z，并重构出无损的原始输入x。
在这里插入图片描述

2.2概率密度估计 Probabilisic Density Estimation

2.2.1参数密度估计 Parametric Density Estimation

根据先验知识假设随机变量服从某种分布，然后通过训练样本来估计分布的参数（使用最大似然估计来寻找参数）

2.2.2非参数密度估计 Nonparametric Density Estimation

不假设数据服从某种分布，通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数
在这里插入图片描述

2.3聚类 Clustering

将一组样本根据一定的准则划分到不同的组（也称为簇Cluster），一个比较通用的准则是组内样本的相似性要高于组间样本的相似性，常见的聚类算法包括K-Means算法、谱聚类等

2.3.1性能度量

簇内相似度intra-cluster similarity、簇间相似度inter-cluster similarity

2.3.1.1外部指标（聚类结果与某个参考模型比较）

在这里插入图片描述

2.3.1.2内部指标（直接考察聚类结果）

在这里插入图片描述

2.3.2距离计算 dist(.,.)

2.3.2.1闵可夫斯基距离 Minkowski distance

用于有序属性ordinal attribute
在这里插入图片描述
（p≥1则满足距离度量的基本性质：非负性、同一性、对称性、直递性）
当p=2，即为欧氏距离Euclidean distance：

当p=1，即为曼哈顿距离Manhattan distance：

加权距离：

2.3.2.2 VDM（Value Difference Metric）

用于无序属性non-ordinal attribute
在这里插入图片描述

2.3.2.3 闵可夫斯基距离和VDM结合

处理混合属性
在这里插入图片描述

2.3.2.4非度量距离 non-metric distance

不满足直递性
在这里插入图片描述

2.3.3聚类算法

2.3.3.1原型聚类（基于原型的聚类 prototype-based clustering）

原型：指的是样本空间中具有代表性的点

算法先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式，将产生不同的算法

2.3.3.1.1 k均值算法k-means

先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

→ 特点：局部收敛；聚类结果和初始聚类中心点的选取有关；时间复杂度是O(NKT)，其中N为样本个数，K为聚类团数量，T为迭代次数；无法自动确定聚类团数量
在这里插入图片描述

主要优点：
①原理比较简单，实现也是很容易，收敛速度快
②聚类效果较优
③算法的可解释度比较强
④主要需要调参的参数仅仅是簇数k

主要缺点：
①K值的选取不好把握
②对于不是凸的数据集比较难收敛
③如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳
④采用迭代方法，得到的结果只是局部最优
⑤对噪音和异常点比较的敏感

2.3.3.1.2学习向量算法 Learning Vector Quantization, LVQ

与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督信息辅助聚类
在这里插入图片描述

2.3.3.1.3高斯混合聚类

采用概率模型来表达聚类原型，由原型对应后验概率确定簇划分
在这里插入图片描述

2.3.3.2密度聚类（基于密度的聚类 density-based clustering）

假设聚类结构能通过样本分布的紧密程度确定，从样本密度的角度考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）：基于一组“邻域”参数在这里插入图片描述来刻画样本分布的紧密程度

簇定义为：由密度可达关系导出的最大的密度相连样本集合：

还有OPTICS、DENCLUE等算法