weka 聚类算法总结

最新推荐文章于 2023-08-13 18:23:48 发布

yangany1_sjtu

最新推荐文章于 2023-08-13 18:23:48 发布

阅读量7.4k

点赞数 7

分类专栏：数据挖掘文章标签： weka 聚类

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.Cobweb

概念聚类的一种形式，不仅聚类，而且更进一步来找出每一个类的特征描述。

并不显式地产生数据集聚类，而是用分类树的形式表现层次聚类。分类树的每一个节点表示了一个概念和对于这个概念（此概念总概了这个节点下的记录）的可能性描述。可能性描述包括形成这个类的可能以及在某个条件下类中记录的可能，表示为P(Ai=Vij|Ck)，Ai=Vij是个“属性—值”对，Ck是类。 CU（剪切值）的Ai=Vij表示了在条件Ck和没有条件Ck之下的偏差。

工作过程：它以递增的方式将记录加入到分类树中去，它对于一个新的记录计算它与以分好的类的匹配度，选择最好的节点将这个新的记录放进去。这个方法先将新记录暂时放到每一个已经形成的类中，然后计算每次放入后的 CU 值，值最大的就是我们要找的最匹配的类。COBWEB也计算将这个新的记录作为一个新的节点时 CU 的值，如果这个值比上述过程所得到的都要大的话，就建立一个新类。上述的操作对于的记录的顺序很敏感，COBWEB 利用两个操作来将这种敏感性降到最低，这就是merging （合并）和splitting（分裂）的方法，当对一个新的记录进行分类的时候，两个最好的类就可能被合并，当然这些决定必须根据 CU 值来确定。

缺点：COBWEB基于这样一个假设：在每个属性上的概率分布是彼此独立的。但这个假设并不总是成立。分类树对于偏斜的输入数据不是高度平衡的，它可能导致时间和空间复杂性的剧烈变化。COBWEB 不适用于聚类大型数据库的数据。

2.DBScan

DBSCAN其基本思想：只要领域中的密度(对象或者数据点的数目)超过了某个阀值，就继续聚类。换句话说，对给定簇中的每个数据点，在给定半径的邻域内至少必须包含规定的阀值个点。很明显，这样的方法可以用来过滤噪声数据，发现任意形状的簇。 ž

对于给定的记录，我们称在其半径e范围内的一个记录为这个记录的e—邻居。如果一个记录的e—邻居的个数超过最小值MinPts，我们就将这个记录称为中心记录。一个记录的集合D，我们说一个记录p是记录q的直接密度可达记录，如果p是q的e—邻居，并且q是个中心记录。给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，我们就说p是q的密度可达，如果pq都是一个记录o的密度可达，我们就称pq密度相连。

工作过程：首先扫描数据库，记录每一个点（记录）的e—邻居个数，如果一个记录的e—邻居个数大于一个阈限值，就这个记录叫做中心记录。这样一个新的以这个记录为中心的类就产生了。接着，寻找这个记录的所有密度可达记录，这个过程可能会将一些类也合并过来，直到没有新的纪录加入为止。

缺点：因为DBSCAN使用簇的基于密度的定义，因此它是相对抗噪音的，并且能处理任意形状和大小的簇。但是如果簇的密度变化很大，例如ABCD四个簇，AB的密度大大大于CD，而且AB附近噪音的密度与簇CD的密度相当，这是当MinPs较大时，无法识别簇CD，簇CD和AB附近的噪音都被认为是噪音；当MinPs较小时，能识别簇CD，但AB跟其周围的噪音被识别为一个簇。这个问题可以基于共享最近邻(SNN)的聚类结局。

3.EM

求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行 MLE 估计。可以广泛地应用于处理缺损数据，截尾数据，带有讨厌数据等所谓的不完全数据

包含两个步骤：E步骤—计算期望值，M步骤—重新计算参数值

E-步：计算完整数据的对数似然函数的期望，记为：Q(Θ|Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) }；

M-步：通过最大化Q(Θ |Θ(t) ) 来获得新的Θ

直观地理解EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数λ ，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。

主要目的是提供一个简单的迭代算法计算后验密度函数，它的最大优点是简单和稳定，但容易陷入局部最优。

http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

4.FarthestFirst（最远最优算法）

广度优先遍历、深度优先遍历

广度优先遍历与深度优先遍历的区别在于：广度优先遍历是以层为顺序，将某一层上的所有节点都搜索到了之后才向下一层搜索；而深度优先遍历是将某一条枝桠上的所有节点都搜索到了之后，才转向搜索另一条枝桠上的所有节点。

5.HierarchicalClusterer

包括分裂（自顶向下）与合并（自底向上）两种形式。
层次聚类算法产生一个嵌套聚类的层次，算法最多包含N步，在第t步，执行的操作就是在前t-1步的聚类基础上生成新聚类。
缺点：当在算法开始阶段，若出现聚类错误，那么这种错误将一直会被延续，无法修改。

6.MakeDensityBasedClusterer

从整体到局部逐渐聚类。局部搜索能力强，收敛速度快。

首先初始化一个没有子种群的全局种群,再在全局种群中采用迭代搜索,并对其中的个体进行聚类,当聚类簇中的个体数目达到规定的最小规模时形成一个子种群,然后在各子种群中进行迭代搜索并重新进行聚类,从而提高进化过程中种群的多样性,增强算法跳出局部最优的能力

7.OPTICS（通过点排序识别聚类结构）

克服参数设置由用户决定的缺点，并不显式地产生数据集聚类，而是为自动和交互的聚类结构。它包含的信息等价于从一个广泛的参数设置所获得的基于密度的聚类。簇排序可以用来提取基本的聚类信息（如簇中心，任意形状簇），也可以提供内在的聚类结构。

每个对象存储两个值：核心距离（core-distance）和可达距离（reachability-distance）

对象p的核心距离是使{p}成为核心对象的最小ε’。

对象q关于另一对象p的可达距离是p的核心距离和p与q之间的欧几里得距离之间的较大值。

8.Sib

该算法将待分析的数据对象按照其与另一数据对象的相关性进行“硬” 划分,使得划分在一起的对象充分体现出源数据对象蕴含的某个特征模式。

优点：具有较低的时间和空间复杂度且保证可以得到问题的局部优解.这种良好的特性有益于 sIB 算法的实际应用

缺点:(1)随机选取的初始解导致算法容易陷入局部解; (2)压缩变量参数需要由用户指定.如果没有关于数据的先验知识 ,该参数的确定极其困难.这在一定程度上使得

sIB 算法偏离了无指导学习的本质意义并有应用的局限性.

9.SimpleKMeans

接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

输入：k,data[n];

选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];

对于data[0]….data[n],分别与c[0]…c[k-1]比较，假定与c[i]差值最少，就标记为i;

对于所有标记为i点，重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数；

重复(2)(3),直到所有c[i]值的变化小于给定阈值。

缺点：我们查看基本K均值算法实现步骤及上面的聚类效果可以发现，该聚类算法将所有数据点都进行了指派，不识别噪音点。另外选择适当的初试质心是基本K均值过程的关键。其实，只要两个初试质心落在一个簇对的任何位置，就能得到最优聚类，因为质心将自己重新分布，每个簇一个，是SSE最小。如果初试时一个簇只有一个质心，那么基本K均值算法不能将该质心在簇对之间重新分布，只能有局部最优解。另外，它不能处理非球形簇，不同尺寸和不同密度的簇。

10.XMeans

Kmeans的改进，在总体记录中通过Kmeans产生聚类，再分别对每个聚类进行Kmeans式的迭代，将某些子类再进行聚类，直到达到用户设定的迭代次数为止。

XMeans和Kmens的比较研究发现：

（1）Xmeans 的样本分类偏差远远低于K-mens，如下图

（2）在给定确定类别的测试集中，当需要划分很多类别时（超过100个类）Kmeans对类的划分更准确，但是Kmans也存在过拟合的问题，Xmeans划分的类通常比正确类别数低一些，在运算速度上Xmeans算法比K-means算法要快很多。

http://web.cs.dal.ca/~shepherd/courses/csci6403/clustering/xmeans.pdf

Xmeans实验要求：

yangany1_sjtu

关注

7
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
weka 聚类算法总结

1.Cobweb概念聚类的一种形式，不仅聚类，而且更进一步来找出每一个类的特征描述。并不显式地产生数据集聚类，而是用分类树的形式表现层次聚类。分类树的每一个节点表示了一个概念和对于这个概念（此概念总概了这个节点下的记录）的可能性描述。可能性描述包括形成这个类的可能以及在某个条件下类中记录的可能，表示为P(Ai=Vij|Ck)，Ai=Vij是个“属性—值”对，Ck是类。 CU（
复制链接

扫一扫