数据挖掘复习下
四、聚类(无监督学习,没有标签)
4.1概述
聚类分析:
寻找一组对象,使一组中的对象彼此相似(或相关)与其他组中的对象不同(或无关).。
聚类分析的应用:
生活中
生物学:物种的分类
信息检索:文档聚类
市场营销:帮市场分析人员发现不同的顾客群
社区规划:根据房子类型、价值、地理位置等对房子聚类
气象学:寻找大气和海洋的气候模式
万维网:对WEB日志的数据进行聚类,以发现相同的 用户访问模式
数据挖掘中
数据归约:作为数据回归、PCA、分类、相关分析等方法的预处理
基于组的预测:聚类并发现每个组的模式与特征
寻找k-近邻:在一个或几个聚类内局部搜索
离群点检测:找到不属于任何聚类的点
聚类分析的基本步骤:
1.特征选择:选择和任务相关的数据,最小信息冗余
2.邻近性度量:两个特征向量的相似性
3.聚类准则:通过代价函数或者规则来表达
4.聚类算法:聚类算法选择
5.结果的验证:验证数据集
6.结果的诠释:结合应用进行诠释
主要聚类分析的方法:划分方法;层次的方法;基于密度的方法;基于网格的方法;基于模型的方法。
聚类效果的判断标准:剪影 Silhouette(一种简洁的图形表示,表示每个数据点在其簇内相对于其他簇的情况)

4.2K-Means
步骤:
1.确定 K 的值。
2.随机生成 K 个聚类中心。
3.每个数据点都被分配到其最近的中心。
4.使用每个簇的平均值更新每个中心。
5.返回到3,直到没有新的分配点。
6.返回K个中心点。
优点:
简单,适用于规则不相交的簇。
收敛速度相对较快。
相对有效,算法复杂度: O(t·k·n),t: 迭代次数; k: 中心点的个数; n: 样本点的数目。
缺点:
需要提前决定K的值。
可能会收敛到局部最优。
对噪声点和奇异点很敏感。
不适合的聚类 :非凸的形状
局限性:
K-means 在聚类有大小,密度,不同时或者非球形时会存在问题 。
K-means 当数据包含离群值时会出现问题。
初始质心的位置不同也会产生不同的结果。
解决初始质心问题:
多次运行。
采样并使用层次聚类法确定初始质心。
选择超过 k 个的初始质心然后从中挑选初始质心。
后处理:
分裂 ‘稀松’ 的簇, 如有较高 SSE的簇。
合并 ‘紧密’ 的和有较低SSE的簇。
生成更多的簇,然后执行层次聚类 。
二分K-means。
二分 K-means 算法:

4.3层次聚类
两种主要类型:
凝聚(自下而上法):
以点作为各个簇开始,每一步, 合并最近的两个簇直到只剩一个(or k clusters) 簇。
分裂(自上而下法):
从一个包括所有点的簇开始,每一步, 分裂一个簇直到每个簇只包含一个点 (or there are k clusters)。
传统层次算法使用相似度或欧几里德距离矩阵。
簇间的邻近(相似)性:
MIN(单链),MA(全链),Group Average(组平均)。
簇间的邻近(相似)性MIN 或 Single Link&#

最低0.47元/天 解锁文章
676

被折叠的 条评论
为什么被折叠?



