数据挖掘复习下

数据挖掘复习下

四、聚类(无监督学习,没有标签)

4.1概述

聚类分析:

寻找一组对象,使一组中的对象彼此相似(或相关)与其他组中的对象不同(或无关).。

聚类分析的应用:

生活中
生物学:物种的分类
信息检索:文档聚类
市场营销:帮市场分析人员发现不同的顾客群
社区规划:根据房子类型、价值、地理位置等对房子聚类
气象学:寻找大气和海洋的气候模式
万维网:对WEB日志的数据进行聚类,以发现相同的 用户访问模式

数据挖掘中
数据归约:作为数据回归、PCA、分类、相关分析等方法的预处理
基于组的预测:聚类并发现每个组的模式与特征
寻找k-近邻:在一个或几个聚类内局部搜索
离群点检测:找到不属于任何聚类的点

聚类分析的基本步骤:

1.特征选择:选择和任务相关的数据,最小信息冗余
2.邻近性度量:两个特征向量的相似性
3.聚类准则:通过代价函数或者规则来表达
4.聚类算法:聚类算法选择
5.结果的验证:验证数据集
6.结果的诠释:结合应用进行诠释

主要聚类分析的方法:划分方法;层次的方法;基于密度的方法;基于网格的方法;基于模型的方法。

聚类效果的判断标准:剪影 Silhouette(一种简洁的图形表示,表示每个数据点在其簇内相对于其他簇的情况)
在这里插入图片描述
4.2K-Means

步骤:

1.确定 K 的值。
2.随机生成 K 个聚类中心。
3.每个数据点都被分配到其最近的中心。 
4.使用每个簇的平均值更新每个中心。
5.返回到3,直到没有新的分配点。
6.返回K个中心点。

优点:

简单,适用于规则不相交的簇。 
收敛速度相对较快。 
相对有效,算法复杂度: O(t·k·n),t: 迭代次数; k: 中心点的个数; n: 样本点的数目。

缺点:

需要提前决定K的值。
可能会收敛到局部最优。
对噪声点和奇异点很敏感。
不适合的聚类 :非凸的形状

局限性:

K-means 在聚类有大小,密度,不同时或者非球形时会存在问题 。
K-means 当数据包含离群值时会出现问题。
初始质心的位置不同也会产生不同的结果。

解决初始质心问题:

多次运行。
采样并使用层次聚类法确定初始质心。
选择超过 k 个的初始质心然后从中挑选初始质心。

后处理:
分裂 ‘稀松’ 的簇, 如有较高 SSE的簇。
合并 ‘紧密’ 的和有较低SSE的簇。

生成更多的簇,然后执行层次聚类 。
二分K-means。

二分 K-means 算法:
在这里插入图片描述
4.3层次聚类

两种主要类型:

凝聚(自下而上法):  
以点作为各个簇开始,每一步, 合并最近的两个簇直到只剩一个(or k clusters) 簇。
分裂(自上而下法):  
从一个包括所有点的簇开始,每一步, 分裂一个簇直到每个簇只包含一个点 (or there are k clusters)。

传统层次算法使用相似度或欧几里德距离矩阵。

簇间的邻近(相似)性:

MIN(单链),MA(全链),Group Average(组平均)。

簇间的邻近(相似)性MIN 或 Single Link&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值