weka 聚类算法总结

1.Cobweb

概念聚类的一种形式,不仅聚类,而且更进一步来找出每一个类的特征描述。
并不显式地产生数据集聚类,而是用分类树的形式表现层次聚类。分类树的每一个节点表示了一个概念和对于这个概念(此概念总概了这个节点下的记录)的可能性描述。  可能性描述包括形成这个类的可能以及在某个条件下类中记录的可能,表示为P(Ai=Vij|Ck),Ai=Vij是个“属性—值”对,Ck是类。 CU(剪切值)的Ai=Vij表示了在条件Ck和没有条件Ck之下的偏差。
工作过程:它以递增的方式将记录加入到分类树中去,它对于一个新的记录计算它与以分好的类的匹配度,选择最好的节点将这个新的记录放进去。这个方法先将新记录暂时放到每一个已经形成的类中,然后计算每次放入后的 CU 值,值最大的就是我们要找的最匹配的类。COBWEB也计算将这个新的记录作为一个新的节点时 CU 的值,如果这个值比上述过程所得到的都要大的话,就建立一个新类。上述的操作对于的记录的顺序很敏感,COBWEB 利用两个操作来将这种敏感性降到最低,这就是merging (合并)和splitting(分裂)的方法,当对一个新的记录进行分类的时候,两个最好的类就可能被合并,当然这些决定必须根据 CU 值来确定。
缺点:COBWEB基于这样一个假设:在每个属性上的概率分布是彼此独立的。但这个假设并不总是成立。分类树对于偏斜的输入数据不是高度平衡的,它可能导致时间和空间复杂性的剧烈变化。COBWEB 不适用于聚类大型数据库的数据

2.DBScan

DBSCAN其基本思想:只要领域中的密度(对象或者数据点的数目)超过了某个阀值,就继续聚类。换句话说,对给定簇中的每个数据点,在给定半径的邻域内至少必须包含规定的阀值个点。很明显,这样的方法可以用来过滤噪声数据,发现任意形状的簇。         ž 
对于给定的记录,我们称在其半径e范围内的一个记录为这个记录的e—邻居。如果一个记录的e—邻居的个数超过最小值MinPts,我们就将这个记录称为中心记录。一个记录的集合D,我们说一个记录p是记录q的直接密度可达记录,如果p是q的e—邻居,并且q是个中心记录。给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,我们就说p是q的密度可达,如果pq都是一个记录o的密度可达,我们就称pq密度相连。
工作过程:首先扫描数据库,记录每一个点(记录)的e—邻居个数,如果一个记录的e—邻居个数大于一个阈限值,就这个记录叫做中心记录。这样一个新的以这个记录为中心的类就产生了。接着,寻找这个记录的所有密度可达记录,这个过程可能会将一些类也合并过来,直到没有新的纪录加入为止。
缺点:因为DBSCAN使用簇的基于密度的定义,因此它是相对抗噪音的,并且能处理任意形状和大小的簇。但是如果簇的密度变化很大,例如ABCD四个簇,AB的密度大大大于CD,而且AB附近噪音的密度与簇CD的密度相当,这是当MinPs较大时,无法识别簇CD,簇CD和AB附近的噪音都被认为是噪音;当MinPs较小时,能识别簇CD,但AB跟其周围的噪音被识别为一个簇。这个问题可以基于共享最近邻(SNN)的聚类结局。

3.EM

求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行 MLE 估计。可以广泛地应用于处理缺损数据,截尾数据,带有讨厌数据等所谓的不完全数据
包含两个步骤:E步骤—计算期望值,M步骤—重新计算参数值
E-步:计算完整数据的对数似然函数的期望,记为:Q(Θ|Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) };
M-步:通过最大化Q(Θ |Θ(t) ) 来获得新的Θ
直观地理解EM算法,它也可被看作为一个逐次逼近算法:事先并不知道模型的参数,可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ,确定出对应于这组参数的最可能的状态,计算每个训练样本的可能结果的概率,在当前的状态下再由样本对参数修正,重新估计参数λ ,并在新的参数下重新确定模型的状态,这样,通过多次的迭代,循环直至某个收敛条件满足为止,就可以使得模型的参数逐渐逼近真实参数。
主要目的是提供一个简单的迭代算法计算后验密度函数,它的最大优点是简单和稳定,但容易陷入局部最优。
       http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

4.FarthestFirst(最远最优算法)

广度优先遍历、深度优先遍历
广度优先遍历与深度优先遍历的区别在于:广度优先遍历是以层为顺序,将某一层上的所有节点都搜索到了之后才向下一层搜索;而深度优先遍历是将某一条枝桠上的所有节点都搜索到了之后,才转向搜索另一条枝桠上的所有节点。

5.HierarchicalClusterer

       包括分裂(自顶向下)与合并(自底向上)两种形式。
       层次聚类算法产生一个嵌套聚类的层次,算法最多包含N步,在第t步,执行的操作就是在前t-1步的聚类基础上生成新聚类。
       缺点:当在算法开始阶段,若出现聚类错误,那么这种错误将一直会被延续,无法修改。

6.MakeDensityBasedClusterer

从整体到局部逐渐聚类。局部搜索能力强,收敛速度快。
首先初始化一个没有子种群的全局种群,再在全局种群中采用迭代搜索,并对其中的个体进行聚类,当聚类簇中的个体数目达到规定的最小规模时形成一个子种群,然后在各子种群中进行迭代搜索并重新进行聚类,从而提高进化过程中种群的多样性,增强算法跳出局部最优的能力

7.OPTICS(通过点排序识别聚类结构)

克服参数设置由用户决定的缺点,并不显式地产生数据集聚类,而是为自动和交互的聚类结构。它包含的信息等价于从一个广泛的参数设置所获得的基于密度的聚类。簇排序可以用来提取基本的聚类信息(如簇中心,任意形状簇),也可以提供内在的聚类结构。
每个对象存储两个值:核心距离(core-distance)和可达距离(reachability-distance)
对象p的核心距离是使{p}成为核心对象的最小ε’。
对象q关于另一对象p的可达距离是p的核心距离和p与q之间的欧几里得距离之间的较大值。

8.Sib

 该算法将待分析的数据对象按照其与另一数据对象的相关性进行“硬” 划分,使得划分在一起的对象充分体现出源数据对象蕴含的某个特征模式。
 优点:具有较低的时间和空间复杂度且保证可以得到问题的局部优解.这种良好的特性有益于 sIB 算法的实际应用
 缺点:(1)随机选取的初始解导致算法容易陷入局部解; (2)压缩变量参数需要由用户指定.如果没有关于数据的先验知识 ,该参数的确定极其困难.这在一定程度上使得 
sIB 算法偏离了无指导学习的本质意义并有应用的局限性. 

9.SimpleKMeans

接受输入量k,然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
输入:k,data[n];
选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];
对于data[0]….data[n],分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;
对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;
重复(2)(3),直到所有c[i]值的变化小于给定阈值。
缺点:我们查看基本K均值算法实现步骤及上面的聚类效果可以发现,该聚类算法将所有数据点都进行了指派,不识别噪音点。另外选择适当的初试质心是基本K均值过程的关键。其实,只要两个初试质心落在一个簇对的任何位置,就能得到最优聚类,因为质心将自己重新分布,每个簇一个,是SSE最小。如果初试时一个簇只有一个质心,那么基本K均值算法不能将该质心在簇对之间重新分布,只能有局部最优解。另外,它不能处理非球形簇,不同尺寸和不同密度的簇。

10.XMeans
Kmeans的改进,在总体记录中通过Kmeans产生聚类,再分别对每个聚类进行Kmeans式的迭代,将某些子类再进行聚类,直到达到用户设定的迭代次数为止。
XMeans和Kmens的比较研究发现:
      (1)Xmeans 的样本分类偏差远远低于K-mens,如下图

     (2)在给定确定类别的测试集中,当需要划分很多类别时(超过100个类)Kmeans对类的划分更准确,但是Kmans也存在过拟合的问题,Xmeans划分的类通常比正确类别数低一些,在运算速度上Xmeans算法比K-means算法要快很多。

       http://web.cs.dal.ca/~shepherd/courses/csci6403/clustering/xmeans.pdf

       Xmeans实验要求:


  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
基于Weka的数据分类分析实验报告范文全文共6页,当前为第1页。基于Weka的数据分类分析实验报告范文全文共6页,当前为第1页。基于Weka的数据分类分析实验报告范文 基于Weka的数据分类分析实验报告范文全文共6页,当前为第1页。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第1页。 1实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 2实验环境 2.1Weka介绍 Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 图1Weka主界面 Weka系统包括处理标准数据挖掘问题的所有方法:回归、分类、聚类、关联规则以及属性选择。分析要进行处理的数据是重要的一个环节,Weka提供了很多用于数据可视化和与处理的工具。输入数据可以有两种形式,第一种是以ARFF格式为代表的文件;另一种是直接读取数据库表。 使用Weka的方式主要有三种:第一种是将学习方案应用于某个数据集,然后分析其输出,从而更多地了解这些数据;第二种是使用已经学习到的模型对新实例进预测;第三种是使用多种学习器,然后根据其性能表现选择其中一种来进行预测。用户使用交互式界面菜单中选择一种学习方基于Weka的数据分类分析实验报告范文全文共6页,当前为第2页。基于Weka的数据分类分析实验报告范文全文共6页,当前为第2页。法,大部分学习方案都带有可调节的参数,用户可通过属性列表或对象编辑器修改参数,然后通过同一个评估模块对学习方案的性能进行评估。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第2页。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第2页。 2.2数据和数据集 根据应用的不同,数据挖掘的对象可以是各种各样的数据,这些数据可以是各种形式的存储,如数据库、数据仓库、数据文件、流数据、多媒体、网页,等等。即可以集中存储在数据存储库中,也可以分布在世界各地的网络服务器上。 大部分数据集都以数据库表和数据文件的形式存在,Weka支持读取数据库表和多种格 式的数据文件,其中,使用最多的是一种称为ARFF格式的文件。 ARFF格式是一种Weka专用的文件格式,Weka的正式文档中说明AREF代表Attribute-RelationFileFormat(属性-关系文件格式)。该文件是ASCII文本文件,描述共享一组属性结构的实例列表,由独立且无序的实例组成,是Weka表示数据集的标准方法,AREF不涉及实例之间的关系。 3数据预处理 本实验采用Weka平台,数据使用Weka安装目录下data文件夹下的默认数据集iri.arff。 Iri是鸢尾花的意思,鸢尾花是鸢尾属植物,是一种草本开花植物的统称。鸢尾花只有三枚花瓣,其余外围的那三瓣乃是保护花蕾的花萼,只是由于这三枚瓣状花萼长得酷似花瓣,以致常常以假乱真,令人难以辨认。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第3页。基于Weka的数据分类分析实验报告范文全文共6页,当前为第3页。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图2所示。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第3页。 基于Weka的数据分类分析实验报告范文全文共6页,当前为第3页。 图2AREF格式数据集(iri.arff) 鸢尾花的数据集包括三个类别:IriSetoa(山鸢尾)、IriVericolour(变色鸢尾)和IriVirginica(维吉尼亚鸢尾),每个类别各有50个实例。数据集定义了5个属性:epallength(花萼长)、epalwidth(花萼宽)、petallength(花瓣长)、petalwidth(花瓣宽)、cla(类别)。最后一个属性一般作为类别属性,其余属性都是数值,单位为cm(厘米)。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数 据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。 实验所需的训练集和测试集均为iri.arff。 4实验过程及结果 应用iri.arff数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值