机器学习主要类型(二):无监督学习

本文深入探讨了无监督学习的主要类型,包括无监督特征学习如主成分分析、自编码器及其变种,概率密度估计以及聚类方法。介绍了K-Means、学习向量量化和高斯混合模型等聚类算法,强调了它们在数据降维、数据可视化和预处理中的应用。同时,讨论了不同距离度量在聚类过程中的作用。
摘要由CSDN通过智能技术生成

机器学习主要类型(二):无监督学习 Unsupervised Learning

2.1 无监督特征学习 Unsupervised Feature Learning

一般用来进行降维、数据可视化或监督学习前期的数据预处理

2.1.1主成分分析

在这里插入图片描述

2.1.2稀疏编码

在这里插入图片描述

2.1.3自编码器

在这里插入图片描述

2.1.4稀疏自编码器 Sparse Auto-Encoder

假设中间隐藏层z的维度M大于输入样本x的维度D,并让z尽量稀疏,这就是稀疏自编码器

2.1.5堆叠自编码器 Stacked Auto-Encoder

对很多数据来说,仅使用两层神经网络的自编码器不足以获取一种好的数据表示,为能更好地捕捉到数据的语义信息,在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器,称为堆叠自编码器

2.1.6降噪自编码器 Denoising Auto-Encoder

降噪自编码器通过引入噪声来增加编码鲁棒性的自编码器

——对一个向量x,首先根据一个比例μ随机将x的一些维度的值设置为0,得到一个被损坏的向量x’,然后将被损坏的向量x’输入到自编码器得到编码z,并重构出无损的原始输入x。
在这里插入图片描述

2.2概率密度估计 Probabilisic Density Estimation

2.2.1参数密度估计 Parametric Density Estimation

根据先验知识假设随机变量服从某种分布,然后通过训练样本来估计分布的参数(使用最大似然估计来寻找参数)

2.2.2非参数密度估计 Nonparametric Density Estimation

不假设数据服从某种分布,通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数
在这里插入图片描述
在这里插入图片描述

2.3聚类 Clustering

将一组样本根据一定的准则划分到不同的组(也称为簇Cluster),一个比较通用的准则是组内样本的相似性要高于组间样本的相似性,常见的聚类算法包括K-Means算法、谱聚类等

2.3.1性能度量

簇内相似度intra-cluster similarity、簇间相似度inter-cluster similarity

2.3.1.1外部指标(聚类结果与某个参考模型比较)

在这里插入图片描述
在这里插入图片描述

2.3.1.2内部指标(直接考察聚类结果)

在这里插入图片描述
在这里插入图片描述

2.3.2距离计算 dist(.,.)

2.3.2.1闵可夫斯基距离 Minkowski distance

用于有序属性ordinal attribute
在这里插入图片描述
(p≥1则满足距离度量的基本性质:非负性、同一性、对称性、直递性)
当p=2,即为欧氏距离Euclidean distance:
在这里插入图片描述
当p=1,即为曼哈顿距离Manhattan distance:
在这里插入图片描述
加权距离:
在这里插入图片描述

2.3.2.2 VDM(Value Difference Metric)

用于无序属性non-ordinal attribute
在这里插入图片描述

2.3.2.3 闵可夫斯基距离和VDM结合

处理混合属性
在这里插入图片描述

2.3.2.4非度量距离 non-metric distance

不满足直递性
在这里插入图片描述

2.3.3聚类算法

2.3.3.1原型聚类(基于原型的聚类 prototype-based clustering)

原型:指的是样本空间中具有代表性的点

算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法

2.3.3.1.1 k均值算法k-means

随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

特点局部收敛;聚类结果和初始聚类中心点的选取有关;时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数;无法自动确定聚类团数量
在这里插入图片描述
在这里插入图片描述
主要优点
①原理比较简单,实现也是很容易,收敛速度快
②聚类效果较优
③算法的可解释度比较强
④主要需要调参的参数仅仅是簇数k

主要缺点
①K值的选取不好把握
②对于不是凸的数据集比较难收敛
③如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳
④采用迭代方法,得到的结果只是局部最优
⑤对噪音和异常点比较的敏感

2.3.3.1.2学习向量算法 Learning Vector Quantization, LVQ

与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息辅助聚类
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3.3.1.3高斯混合聚类

采用概率模型来表达聚类原型,由原型对应后验概率确定簇划分
在这里插入图片描述
在这里插入图片描述

2.3.3.2密度聚类(基于密度的聚类 density-based clustering)

假设聚类结构能通过样本分布的紧密程度确定,从样本密度的角度考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果

DBSCAN(Density-Based Spatial Clustering of Applications with Noise):基于一组“邻域”参数在这里插入图片描述来刻画样本分布的紧密程度
在这里插入图片描述
定义为:由密度可达关系导出的最大的密度相连样本集合
在这里插入图片描述
在这里插入图片描述
还有OPTICSDENCLUE等算法

2.3.3.3层次聚类

在不同层次对数据集进行划分(自底向上的聚合策略or自顶向下的分拆策略),从而形成树形的聚类结构

AGNES(AGglomerative NESting):是一种自底向上聚合策略的层次聚类算法

聚类簇之间的距离计算:
在这里插入图片描述
在这里插入图片描述
DIANA:采用自顶向下分拆策略

AGNES和DIANA都不能对已合并或已分拆的聚类簇进行回溯调整
BIRCHROCK等对此进行了改进

_ _ _ _ _ _ 未完待续,喜欢的朋友可以关注后续文章 _ _ _ _ _ _

《机器学习主要类型》系列文章往期回顾:
机器学习主要类型(一):监督学习 Supervised Learning

参考书目:
周志华.《机器学习》
邱锡鹏.《神经网络与深度学习》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值