计算思维与数据科学②

最新推荐文章于 2024-07-14 12:25:25 发布

田园将芜胡不归

最新推荐文章于 2024-07-14 12:25:25 发布

阅读量376

点赞数

文章标签：聚类算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47280837/article/details/117748211

版权

聚类方法

1、K-means（贪心算法的典型代表）

（最小化平方误差）

E越小，簇内样本相似度越高。

优点：速度快、复杂度低、原理简单、易理解、易于实现。

缺点：对异常点敏感、获得的是局部最优解而不是全局最优解、聚类结果与初始点选取有关、不能发现非凸形状的聚类。

2、子空间聚类（实现高维数据集聚类）

思想：谱聚类：一种基于图论的点对聚类方法。通过对样本数据的拉普拉斯矩阵的特征向量进行聚类。将聚类问题转换为图的最优划分问题。

3、高斯混合模型：由K个单高斯模型组合而成的模型。

混合模型：用来表示在总体分布中含有K个子分布的概率模型。

EM算法：EM（Expectation-Maximum）算法也称期望最大化算法。EM算法是最常见的隐变量估计方法，EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法。

4、DBSCAN聚类

一种基于密度的聚类方法，可发现任意形状的类簇，对噪声不敏感。

DBSCAN的4种关系：密度直达，密度相连，密度可达，非密度相连。

优点：对远离中心的噪声点鲁棒性好

无需知道聚类簇的数量

可以发现任意现状的聚类簇

5、密度峰值聚类

寻找被低密度区域分离的高密度区域。

聚类总结

分类方法

1、K近邻：少数服从多数（对每个特征进行归一化）。K值过小，容易发生过拟合，使用交叉验证法求K值。

2、Logistic回归：对n维输入样本线性加权后得到g（x）函数，对函数进行sigmoid变换。

3、朴素贝叶斯：贝叶斯分类以贝叶斯定理为基础的一类分类算法的总称，下面A为特征，B为类别。

4、支持向量机（SVM）：寻找最大间隔超平面，WxT+b=0，寻找最优决策边界。

5、决策树：每个节点表示一个属性上的判断，每个分支表示一个判断的输出结果，每个叶子结点表示一种分类结果。

关键点：在每一轮迭代中选择最优特征。（信息增益最大被选为划分属性）

三个主要特征：信息增益、增益率、基尼指数

田园将芜胡不归

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
计算思维与数据科学②

聚类方法1、K-means（贪心算法的典型代表）（最小化平方误差）E越小，簇内样本相似度越高。优点：速度快、复杂度低、原理简单、易理解、易于实现。缺点：对异常点敏感、获得的是局部最优解而不是全局最优解、聚类结果与初始点选取有关、不能发现非凸形状的聚类。2、子空间聚类（实现高维数据集聚类）思想：谱聚类：一种基于图论的点对聚类方法。通过对样本数据的拉普拉斯矩阵的特征向量进行聚类。将聚...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。