数学建模——聚类模型

最新推荐文章于 2024-07-22 09:04:47 发布

我喜欢的猫呢

最新推荐文章于 2024-07-22 09:04:47 发布

阅读量164

点赞数

分类专栏：数学建模文章标签：聚类

本文链接：https://blog.csdn.net/weixin_56707534/article/details/128746726

版权

3 篇文章 1 订阅

订阅专栏

分类已知类别，聚类未知类别。

聚类，就是将样本划分为由类似的对象组成的多个类的过程。
聚类后，我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测；也可以探究不同类之间的相关性和主要差异。

优点：简单、迅速、对处理大数据集高效率。
缺点：要求用户必须给出K、对初值敏感（最终聚类效果和一开始选择的聚类中心有很大的关系）、对于孤立点数据敏感。

改进：K-means++算法可以解决缺点2和3

只对K-menas里“初始化K个聚类中心”进行了优化：

随机选择一个样本作为第一个聚类中心；
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个值越大，表示被选取作为聚类中心的概率较大；最后，用轮盘法（依据概率大小来进行抽选）选出下一个聚类中心；
重复步骤2，直到选出K个聚类中心。选出初始点后，就继续使用标准的K-means算法了。

基本原则：初始的聚类中心之间的相互距离要尽可能的远。

K-means（默认使用K-means++）:

聚类的个数K值怎么定？
答：分几类主要取决于个人的经验与感觉，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等。
数据的量纲不一致怎么办？
答：如果数据的量纲不一样，那么算距离时就没有意义。例如：如果X1单位是米，X2单位是吨，用距离公式计算就会出现“米的平方”加上“吨的平方”再开平方，最后算出的东西没有数学意义，这就有问题了，需要计算标准值。
$z_{i}=\frac{x_{i}-\bar{x}}{\sigma_{x}}\text{(先减去均值再除以标准差)}$