Kmeans算法及相关优化

最新推荐文章于 2025-02-04 18:19:18 发布

wskywskywsky

最新推荐文章于 2025-02-04 18:19:18 发布

阅读量2.6k

点赞数 3

分类专栏：算法优化机器学习文章标签： Kmeans算法 Kmeans优化 Kmeans算法中初始类簇中心点的选择 Kmeans算法中K值的选择相关算法补充

本文链接：https://blog.csdn.net/wskywskywsky/article/details/93972952

版权

KMeans是一种无监督聚类算法，旨在通过迭代优化使簇内点接近、簇间点远离。初始类簇中心点的选择对算法效果至关重要，可采用随机选择、最远距离选择或层次聚类方法。K值的选取可通过类簇指标变化来判断，如平均半径或直径。算法流程包括初始化、点分配、中心点更新等步骤。优化包括离群点检测、距离计算优化和K值自适应调整。KNN算法是监督学习，通过最近邻的类别决定新样本的类别，常用于分类和回归，但计算量大，易受样本不平衡影响。交叉验证用于评估模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要参考https://www.cnblogs.com/pinard/p/6164214.html
和https://www.cnblogs.com/jojo123/p/6822908.html，百度百科

Kmeans算法简介

（1）Kmeans算法是一种无监督聚类算法。
（2）算法的目标：给定样本集，根据样本之间的距离大小，将样本划分为K个簇，让簇内的点之间的距离尽可能近，让簇间的点的距离尽可能的远。
（3）算法的思路：在给定K值和K个初始类簇中心点的情况下，把每个点（样本数据）分到距离最近的类簇中心点代表的类簇中。分配完毕后，根据一个类簇中的所有点重新计算类簇中心点，然后再迭代的进行分配点和更新类簇中心点的过程，直到没有（或者是预期要求）点被分配到其它类簇中，没有（或达到预期要求）类簇中心点再发生更新，误差平方和最小（或达到某一条件）。
假设簇划分为（ $C_{1}$ … $C_{k}$ ），误差平方和E表示为
$\sum_{i=1}^k\sum_{x\in C_{i}}|x - u_{i}|^2$

最低0.47元/天解锁文章