常见机器学习聚类算法

最新推荐文章于 2024-08-09 23:32:16 发布

tuntunwang

最新推荐文章于 2024-08-09 23:32:16 发布

阅读量764

点赞数

分类专栏：数据挖掘文章标签：聚类介绍常见机器学习 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tuntunwang/article/details/94326577

版权

本文详细介绍了常见的机器学习聚类算法，包括K-Means、DBSCAN、Gaussian Mixture Model (GMM)以及层次聚类。K-Means算法速度快但对初始值敏感，有多种改进方法如K-means++等。DBSCAN是基于密度的聚类算法，能处理不规则形状的簇。GMM使用高斯概率密度函数进行聚类。层次聚类则通过不断合并最相似的簇构建层次结构。文章还提到了LDA和其它聚类方法的应用。

摘要由CSDN通过智能技术生成

聚类最常见的，应该是kmeans。对于spark mllib，除了支持kmeans外，还支持GMM，主题模型LDA。

比较常用的聚类模型还有：DBSCAN（密度聚类）；层次聚类；

K-Means聚类================

1.首先，我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量，最好快速地查看一下数据，并尝试识别任何不同的分组。中心点是与每个数据点向量相同长度的向量，在上面的图形中是“X”。

2.每个数据点通过计算点和每个组中心之间的距离进行分类，然后将这个点分类为最接近它的组。

3.基于这些分类点，我们通过取组中所有向量的均值来重新计算组中心。

4.对一组迭代重复这些步骤。你还可以选择随机初始化组中心几次，然后选择那些看起来对它提供了最好结果的来运行。

K-Means聚类算法的优势在于它的速度非常快，因为我们所做的只是计算点和群中心之间的距离;它有一个线性复杂度O(n)。

对于kmeans，最主要的是K值的选择。首先根据业务需求定，也可以根据尝试法：先设置一个较小的值，观察，随着k的增大，是否cost减少。当cost基本保持不变的时候，就达到了最有K值。

其次kmeans算法对簇心的初始值也比较敏感。针对kmeans有几种改进：

https://www.jianshu.com/p/2fa67f9bad60

Kmeans++ ； Kmeansll ；二分 Kmeans ；Canopy算法； Mini batch k- Means 算法；

Kmeans++ ===============

该算法可以避免初始簇心敏感的问题。步骤如下：

从数据集中任选一个节点作为第一个聚类中心；

对数据集中的每个点X，计算X到所有簇心的距离只和D(x)。基于D(x) 采用线性概率选择出下一个中心点。距离越大，该样本称为下一个中心点的概率越大。

重复以上两个步

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tuntunwang CSDN认证博客专家 CSDN认证企业博客

码龄12年

286: 原创

5万+: 周排名

140万+: 总排名

72万+: 访问

: 等级

9276: 积分

122: 粉丝

298: 获赞

86: 评论

444: 收藏

私信

关注

热门文章

分类专栏

算法 3篇
数据挖掘 30篇
推荐系统 8篇
数据结构 14篇
spark 23篇
hadoop 7篇
scala 4篇
神经网络 12篇
模式识别 4篇
Python 6篇
linux 30篇
Hbase 2篇
docker 1篇
云 1篇
android 10篇
小知识 27篇
jsp 32篇
mysql 6篇
webservice 8篇
xml 2篇
嵌入式 24篇
JavaScript 4篇
CSS 4篇
javabean 1篇
OC 9篇
Swift 11篇
Mac 1篇
C# 1篇
c++ 3篇

最新评论

python+神经网络实现时间序列预测
zzp12345678: 冒昧的问一下，标题不是说python+神经网络吗？这是python语言？
ubuntu下eclipse连接mysql
「已注销」: 这种报错是啥意思com.mysql.jdbc.exceptions.MySQLNonTransientConnectionException: Client does not support authentication protocol requested by server; consider upgrading MySQL client
三维城市建模
a6655789: 除了大疆还有其他无人机推荐下吗
三维城市建模
a6655789: 之前听说云端地球，这个也可以建模吗
三维城市建模
hefewrqwe: 听说重建大师有个云平台建模，有人用过吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。