聚类分析：物以类聚，人以群分

最新推荐文章于 2024-06-14 10:47:03 发布

小海绵先生

最新推荐文章于 2024-06-14 10:47:03 发布

阅读量2.3k

点赞数 1

分类专栏：数据挖掘文章标签：聚类机器学习算法

本文链接：https://blog.csdn.net/zy702432103/article/details/121131662

版权

数据挖掘专栏收录该内容

10 篇文章

订阅专栏

聚类分析

无监督学习
1）聚类中的簇与分类中的类的关系不能混为一谈，也不能理解成包含关系，二者不相同但是在实际中有一定联系。
2）一个好的聚类算法应当具备：
①能够处理非球形的数据分布；
②能够处理噪点和离群点；
③对样本输入序列不敏感；
④对海量数据的可扩展性。
3）数据预处理可能对聚类分析造成的影响：
①可能改变数据点之间的位置关系；
②可能改变簇的个数；
③可能产生不确定影响。
K-Means
1）通过考虑数据点间的连通性来衡量聚类的质量。
2）Silhouette图表可以体现出簇的紧凑性。
3）K-Means算法对初始中心点较为敏感。
4）K-Means算法中的初始中心点直接影响算法的收敛结果。
5）在Sequential Leader算法中，聚类结果可能受数据访问顺序影响。
期望最大法
1）基于模型的聚类比基于分割的聚类对数据分布有更好的描述性。
2）在混合高斯模型中，每一个数据点可以被任一高斯生成但概率可能不等。
3）在混合高斯模型中，每个高斯的权重相加必须等于1 。
4）以K-Means算法为例，期望最大化算法中的隐含参数指的是每个数据点的簇标号。
密度与层次
1）与K-Means相比，基于密度的DBSCAN的优点是：
①能妥善处理噪点和离群点；
②能处理不规则的数据分布；
③不需要预先设定簇的个数。
2）在DBSCAN中，对数据点类型的划分中包括核心点、边缘点、噪点。
3）在DBSCAN中，对于噪点可以直接无视。
4）在层次型聚类中对于N个数据点，可生成1到N个簇。
5）在层次型聚类中，两个点集之间的距离计算方法通常：
①由点集间距离最近的一对点的距离决定；
②由点集间距离最远的一对点的距离决定；
③由点集间所有点的平均距离决定。