k-means基础

最新推荐文章于 2024-08-28 11:16:39 发布

yeqiustu

最新推荐文章于 2024-08-28 11:16:39 发布

阅读量408

点赞数

分类专栏：机器学习#kmeans 文章标签：机器学习算法聚类 kmeans算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeqiustu/article/details/105987842

版权

K-Means是一种无监督聚类算法，通过迭代寻找使误差平方和（SSE）最小的簇心。算法易受初始簇心选择影响，对非球形簇和离群点处理不佳。Bisecting K-means通过不断分裂簇以克服这些问题，从单一簇开始，每次选择误差最小的簇进行二分，直至得到K个簇。

摘要由CSDN通过智能技术生成

K-Means 是一种基于距离的无监督聚类算法，其算法思想较为简单，如下所示：

目标：将数据聚成K个簇，并找到这K个簇的簇心

步骤：

1. 随机选择K个点作为初始簇心
2. 计算每个数据点到各个簇心的距离，将每个数据点归属到最近的那个簇
3. 重新计算簇心：为簇内所有点的均值
4. 重复2~3，直至簇心不再变化或达到最大迭代次数。

步骤2中的距离一般为欧式距离；

最关键的步骤在于步骤3，即如何计算簇心。使用误差平方和（Sum of the Squared Error,SSE）作为聚类的目标函数，来指导如何计算簇心，即找到K个簇心使得SSE最小；SSE的表达式如下：

$SSE = \sum_{k=1}^{K}\sum_{i\in\{X_i\in C_k\}}{dist(O_k, X_i)}^2$

其中， C_k 表示第k个簇， O_k 表示第k个簇的簇心。

要找到一组簇心

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yeqiustu CSDN认证博客专家 CSDN认证企业博客

码龄12年

30: 原创

8万+: 周排名

91万+: 总排名

8万+: 访问

: 等级

830: 积分

17: 粉丝

46: 获赞

13: 评论

135: 收藏

私信

关注

分类专栏

最新评论

tensorflow入门：TFRecordDataset变长数据的batch读取
cxrot: Traceback (most recent call last): File "/Users/xuan/PycharmProjects/pythonProject/test_tf_varlenfeat.py", line 70, in <module> test_varlen_feat() File "/Users/xuan/PycharmProjects/pythonProject/test_tf_varlenfeat.py", line 60, in test_varlen_feat make_varlen_dataset() File "/Users/xuan/PycharmProjects/pythonProject/test_tf_varlenfeat.py", line 31, in make_varlen_dataset random.shuffle(inx_lst) File "/usr/local/Cellar/python@3.7/3.7.9_2/Frameworks/Python.framework/Versions/3.7/lib/python3.7/random.py", line 278, in shuffle x[i], x[j] = x[j], x[i] TypeError: 'range' object does not support item assignment
tensorflow入门：TFRecordDataset变长数据的batch读取
kongjulvse: 为啥我这就显示 TypeError: Batching of padded sparse tensors is not currently supported
tensorflow入门：tf.name_scope，tf.variable_scope、变量共享
120斤: module 'tensorflow' has no attribute 'AUTO_REUSE'，，博主为什么我会出现这个错误？
tensorflow入门：tfrecord 和tf.data.TFRecordDataset
menghuanguaishou 回复 menghuanguaishou: 这教程写得太烂了，按你的一步步做根本理解不了，比如第一步dataset = tf.data.TFRecordDataset('xxx.tfrecord')，然后就feats = tf.parse_single_example(serial_exmp, features=data_dict)，dataset怎么变成的serial_exmp啊，怎么下面突然就使用serial_exmp了呢...,而你下面的全部代码中有很多没有解释的代码，下面的全部代码，太长了，不知道哪些是最关键的，楼主应该以最简洁的代码，实现一个能看到效果的demo，哎网上找了十几个教程，想实现一个能写入1000个数字，并把这1000个数字读出来，没有一个能够实现的....TUT
tensorflow入门：TFRecordDataset变长数据的batch读取
qq_43284966: 你好想问一下serial_exmp是什么

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。