Breast Cancer数据集的分类算法

论文利用Weka软件对乳腺癌数据集进行分析,探讨了非线性算法的适用性。尝试了J48、SMO、NavieBayes、OneR等多种算法,对比了它们的优缺点并调整了属性选择和参数设置。结果显示,IBK算法在特定参数设置下表现出最佳性能,正确分类实例达到66.25%,Kappa统计量为0.3229,ROC曲线下面积为0.6619。
摘要由CSDN通过智能技术生成

Breast Cancer数据集的分类算法

摘要

   文通过使用Weka软件对乳腺癌(BreastCancer)的数据集进行研究,首先针对复杂的数据集预计出非线性算法将会适合这些数据集。其次,报告了我们所选择的五个我们曾尝试过的算法以及将每种算法分类器进行前端属性选择或者参数设置的修改,对比各分类的强项和弱项,给出我们获得最好结果时的模型参数,同时开发出一个在众多分类器中偏好于该数据集的分类器。然后报告了我们设计的分类器对于新鲜实例的处理效果(10-fold CV和LOOCV)的预测。最后给出自己最终的学习分类算法,以及性能评价各指标,并对各个指标值给出合适的解释说明。

 

关键词:BreastCancer  Weka  属性选择  参数设置  分类算法  指标

 

   In this paper, the data set of BreastCancer is studied by using Weka software. First, it is expected that the nonlinear algorithm will be suitable for these data sets for complex data sets. Secondly, we report the five selected algorithms we have tried and the modification of the front attribute selection or parameter setting of each algorithm classifier, compare the strengths and weaknesses of each classification, give the model parameters when we obtain the best results, and develop a preference for the number of classifiers in the number of classifiers. According to the classifier of the set. Then we report the predictions of the classifier designed for fresh instances (10-fold CV and LOOCV). Finally, give your final learning classification algorithm and performance evaluation indicators, and give appropriate explanation for each index value. 

 

Keywords: BreastCancer Weka attribute selection parameter setting classification algorithm index 

   

 

 

 

 

一.正文

数据描述: BreastCancer这个数据集共包含24481个基因和97个病例样本的信息,其中46个样本在初次诊断治疗后5年内癌症发生转移(数据集中被标记为“relapse”),而剩余的51个病例(标记为“non-relapse”的样本)初次治疗后至少在5年时间间隔内仍然保持健康的状态。

Breast Cancer (Laura, 2002): It contains 24481 genes. The training data contains 78 patient samples, 34 of which are from patients who had developed distance metastases within 5 years (labelled as "relapse"), the rest 44 samples are from patients who remained healthy from the disease after their initial diagnosis for interval of at least 5 years (labelled as "non-relapse"). Correspondingly, there are 12 relapse and 7 non-relapse samples in the testing data set. We replaced "NaN" symbol in original ratio data with 100.0. Raw Data: http://www.rii.com/publications/2002/vantveer.htm

针对乳腺癌(BreastCancer)数据集97个实例,24481个属性的这种复杂、属性又多的数据,同时医疗数据的特殊性,自然就想到了复杂、较大的方差、高精确度的非线性算法。

由于BreastCancer这个数据集是属于数值型数据,使用了J48、SMONavieBayes、OneR算法符合数值型数据的分类需求,因此我预计J48、SMONavieBayes、OneR算法适合BreastCancer这个数据集。

1.1算法描述

SMO的优点:从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到测试样本的“转导推理”,大大简化了通常的分类和回归等问题。缺点:SMO算法对大规模训练样本难以实施。由于SMO是借助二次规划来求解支持向量,而求解二次规划将涉及m*n阶矩阵的计算(m为样本的个数,n为属性个数),当m*n很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。

NavieBayes优点:是算法逻辑简单易于实现,分类过程中时空开销小,算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好。

贝叶斯分类算法是统计学分类方法,该类方法利用概率统计知识进行分类。朴素贝叶斯分类算法中,每个数据样本用一个n维特征向量来描述n个属性的值,即:X={X,1X,…,X},假定有m个类,分别用C, C,…,C表示。给定一个未知的数据样本X(即2n12m没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类C,则一定存在iP(C|X)>P(Cj|X) ,1?j?m,j?i 。 i
    根据贝叶斯定理,由于P(X)对于所有类为常数,最大化后验概率P(C|X) 可转化为j最大化先验概率P(X|C)P(C)。如果训练数据集有许多属性和元组,计算P(X|C)的开销iii可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率P(X|C),1iP(X|C),…,P(X|C)可以从训练数据集求得。 
    根据此方法,对一个未知类别的样本X,可先分别计算出X属于每一个类别C的概i率P(X|C)P(C),然后选择其中概率最大的类别作为其类别。

但现实中独立性假设一般不能成立,因而影响其分类效果。这是朴素贝叶斯算法的主要缺陷之一。NavieBayes优点:是算法逻辑简单易于实现,分类过程中时空开销小,算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好。

IBk算法是通过它周围的k个邻居来判断测试样本的类别。在样本中有比较多的噪音点是(noisy points)时,通过一个邻居的效果很显然会差一些,因为出现误差的情况会比较多。这种情况下,IBk 就成了一个较优的选项了。这个时候有出现了一个问题,k这个值如何确定,一般来说这个k是通过经验来判断的。

J48算法是一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。
  优点:
1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;
2. 数据预处理阶段比较简单,且可以处理缺失数据;
3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树;
4. 是一个白盒模型,给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式;
5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。
6. 可以对有许多属性的数据集构造决策树。

缺点:
1. 对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性;
2. 对噪声数据较为敏感;
3. 容易出现过拟合问题;
4. 忽略了数据集中属性之间的相关性;
5.处理缺失数据时的困难

J48的优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

OneR算法是机器学习算法的一种,对每一个特征都建立单层的树,计算训练集上能达到的错误率,选择错误率最低的属性产生的单层决策树作为分类策。这种算法简单,耗时很短,而且往往能达到最好分类效果相差不多的结果。在本文研究的乳腺癌数据中,由于数据属性的特征,引起较好的分类。在实际问题的解决中,某单一属性并不都能产生很好的分类效果。由于存在属性与结果并不能构成确切关系的问题,应用时应该与专门领域的知识相结合使用。某种程度上,这种方法带有一定的片面性。

1.2 参数介绍

Feature Selection:特征选择

Accuracy%):准确度

Kaapa:卡帕

ROC接受者操作特征

Mean value:平均值

Variance:方差

ChiSquare:卡方检验

ReliefF:特征权重

Filtered:过滤

在以下表格在进行修改参数设置的操作中,首先使用默认值运行,其次再对该分类算法的参数逐个进行修改,每个参数以单位值增加或者减少,变化到运行后的处理结果产生变动为止,或是截止到满意为止,前提是内存足够,能保证其正常运行。最后确定该参数的变化情况,在该算法下控制单一变量即可。

 

1.3 SMO算法

 

表1   基于SMO算法属性选择的比较分析(在乳腺癌(BreastCancer)数据集)

 

Feature Selection

 

Accuracy%

  

Kaapa

 

ROC

 

Mean value

 

Variance

 

 

Mean value

 

Variance

 

 

Mean value

 

Variance

 

 

No

69.17

48.44

0.3820

0.0202

0.6920

0.0050

ChiSquare

 

50

67.50

20.14

0.3472

0.0083

0.6747

0.0021

100

68.75

39.93

0.3742

0.0162

0.6881

0.0040

ReliefF

 

50

64.58

35.59

0.2902

0.0146

0.6462

0.0038

100

65.83

7.12

0.3157

0.0028

0.6586

0.0007

Filtered

 

50

64.58

26.04

0.2728

0.0107

0.6468

0.0028

100

66.04

36.50

0.3213

0.0153

0.6623

0.0040

 

由上表知:在搜索策略search全设为Ranker(numToSelect设为50)以及其他参数为默认值的情况下,以下评价策略(attribute evaluator):ChiSquare、ReliefFAttributeEval、FilteredAttributeEval(默认InfoGainAttributeEval )都相对于算法未进行属性选择的分析而言,处理结果并没有更好

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值