机器学习主要类型(二):无监督学习 Unsupervised Learning
2.1 无监督特征学习 Unsupervised Feature Learning
一般用来进行降维、数据可视化或监督学习前期的数据预处理
2.1.1主成分分析
2.1.2稀疏编码
2.1.3自编码器
2.1.4稀疏自编码器 Sparse Auto-Encoder
假设中间隐藏层z的维度M大于输入样本x的维度D,并让z尽量稀疏,这就是稀疏自编码器
2.1.5堆叠自编码器 Stacked Auto-Encoder
对很多数据来说,仅使用两层神经网络的自编码器不足以获取一种好的数据表示,为能更好地捕捉到数据的语义信息,在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器,称为堆叠自编码器
2.1.6降噪自编码器 Denoising Auto-Encoder
降噪自编码器通过引入噪声来增加编码鲁棒性的自编码器
——对一个向量x,首先根据一个比例μ随机将x的一些维度的值设置为0,得到一个被损坏的向量x’,然后将被损坏的向量x’输入到自编码器得到编码z,并重构出无损的原始输入x。
2.2概率密度估计 Probabilisic Density Estimation
2.2.1参数密度估计 Parametric Density Estimation
根据先验知识假设随机变量服从某种分布,然后通过训练样本来估计分布的参数(使用最大似然估计来寻找参数)
2.2.2非参数密度估计 Nonparametric Density Estimation
不假设数据服从某种分布,通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数
2.3聚类 Clustering
将一组样本根据一定的准则划分到不同的组(也称为簇Cluster),一个比较通用的准则是组内样本的相似性要高于组间样本的相似性,常见的聚类算法包括K-Means算法、谱聚类等
2.3.1性能度量
簇内相似度intra-cluster similarity、簇间相似度inter-cluster similarity
2.3.1.1外部指标(聚类结果与某个参考模型比较)
2.3.1.2内部指标(直接考察聚类结果)
2.3.2距离计算 dist(.,.)
2.3.2.1闵可夫斯基距离 Minkowski distance
用于有序属性ordinal attribute
(p≥1则满足距离度量的基本性质:非负性、同一性、对称性、直递性)
当p=2,即为欧氏距离Euclidean distance:
当p=1,即为曼哈顿距离Manhattan distance:
加权距离:
2.3.2.2 VDM(Value Difference Metric)
用于无序属性non-ordinal attribute
2.3.2.3 闵可夫斯基距离和VDM结合
处理混合属性
2.3.2.4非度量距离 non-metric distance
不满足直递性
2.3.3聚类算法
2.3.3.1原型聚类(基于原型的聚类 prototype-based clustering)
原型:指的是样本空间中具有代表性的点
算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法
2.3.3.1.1 k均值算法k-means
先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
→ 特点:局部收敛;聚类结果和初始聚类中心点的选取有关;时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数;无法自动确定聚类团数量
主要优点:
①原理比较简单,实现也是很容易,收敛速度快
②聚类效果较优
③算法的可解释度比较强
④主要需要调参的参数仅仅是簇数k
主要缺点:
①K值的选取不好把握
②对于不是凸的数据集比较难收敛
③如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳
④采用迭代方法,得到的结果只是局部最优
⑤对噪音和异常点比较的敏感
2.3.3.1.2学习向量算法 Learning Vector Quantization, LVQ
与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息辅助聚类
2.3.3.1.3高斯混合聚类
采用概率模型来表达聚类原型,由原型对应后验概率确定簇划分
2.3.3.2密度聚类(基于密度的聚类 density-based clustering)
假设聚类结构能通过样本分布的紧密程度确定,从样本密度的角度考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果
DBSCAN(Density-Based Spatial Clustering of Applications with Noise):基于一组“邻域”参数来刻画样本分布的紧密程度
簇定义为:由密度可达关系导出的最大的密度相连样本集合:
还有OPTICS、DENCLUE等算法
2.3.3.3层次聚类
在不同层次对数据集进行划分(自底向上的聚合策略or自顶向下的分拆策略),从而形成树形的聚类结构
AGNES(AGglomerative NESting):是一种自底向上聚合策略的层次聚类算法
聚类簇之间的距离计算:
DIANA:采用自顶向下分拆策略
AGNES和DIANA都不能对已合并或已分拆的聚类簇进行回溯调整
→BIRCH、ROCK等对此进行了改进
《机器学习主要类型》系列文章往期回顾:
机器学习主要类型(一):监督学习 Supervised Learning
参考书目:
周志华.《机器学习》
邱锡鹏.《神经网络与深度学习》