Weka开发[14]-AdaBoost源代码介绍

转自 Koala++'s blog 感谢原作者

 

这一次讲的是Ensemble的东西,一位读者希望我讲一下Adaboost的内容,这种Ensemble看起来的确比较吓人,推荐一篇论文:Ensemble Based Systems in Decision Making. 在这里所有理论的东西我就不介绍了。

与以往一样,先看buildClassifier函数(我在函数中将不重要的代码全部去掉):

super.buildClassifier(data);

if ((!m_UseResampling)&& (m_Classifierinstanceof WeightedInstancesHandler)) {

buildClassifierWithWeights(data);

} else {

buildClassifierUsingResampling(data);

}

Adaboost类继承自RandomizableIteratedSingleClassifierEnhancer类,再看一下这个类的buildClasssifier函数内容:

m_Classifiers = Classifier.makeCopies(m_Classifier, m_NumIterations);

这句话是产生m_NumIterations个基分类器。

接下来的是判断是否用Resampling方法,这个先不讲,直接看下面的函数,先讲buildClassifierWithWeights这个函数,代码太长了,我分开讲:

// Select instances to train the classifier on

if (m_WeightThreshold < 100) {

   trainData = selectWeightQuantile(training,(double) m_WeightThreshold / 100);

} else {

    trainData = new Instances(training, 0, numInstances);

}

最上面那个循环m_Classifiers.length次的循环没有粘,这一段话也没什么意思,就是说先多少样本训练,默认的是100,不是100的时候用selectWeightQuantile函数,这个函数是根据样本权重的比例来选择的,它先根据权重对样本进行排序,再选择样本。如果是默认值,那么当然是选择全部样本。

// Build the classifier

if (m_Classifiers[m_NumIterationsPerformed] instanceof Randomizable)

    ((Randomizable) m_Classifiers[m_NumIterationsPerformed])

              .setSeed(randomInstance.nextInt());

m_Classifiers[m_NumIterationsPerformed].buildClassifier(trainData);

有的分类器是一个Randomizable实例,那么就给它设置种子,然后训练一个分类器。

// Evaluate the classifier

evaluation = new Evaluation(data);        

evaluation.evaluateModel(m_Classifiers[m_NumIterationsPerformed],training);

epsilon = evaluation.errorRate();

// Stop if error too small or error too big and ignore this model

if (Utils.grOrEq(epsilon, 0.5) || Utils.eq(epsilon, 0)) {

if (m_NumIterationsPerformed == 0) {

// If we're the first we have to to use it

m_NumIterationsPerformed = 1;

    }

break;

}

这一段,看过论文的人应该比较清楚是什么意思,这里也就不解释了。

// Determine the weight to assign to this model

    m_Betas[m_NumIterationsPerformed] = Math.log((1 - epsilon)/ epsilon);

reweight = (1 - epsilon) / epsilon;

// Update instance weights

setWeights(training, reweight);

第一行代码对应我刚才讲的论文的图5中的公式15,第二句对应公式13,最后一句对应公式14,下面详细讲一下:

oldSumOfWeights = training.sumOfWeights();

Enumeration enu = training.enumerateInstances();

while (enu.hasMoreElements()) {

Instance instance = (Instance) enu.nextElement();

if (!Utils.eq(m_Classifiers[m_NumIterationsPerformed].

           classifyInstance(instance), instance.classValue()))

instance.setWeight(instance.weight() * reweight);

}

// Renormalize weights

newSumOfWeights = training.sumOfWeights();

enu = training.enumerateInstances();

while (enu.hasMoreElements()) {

Instance instance = (Instance) enu.nextElement();

instance.setWeight(instance.weight() * oldSumOfWeights / newSumOfWeights);

}

这段代码也是adaboost的核心了,这个函数就是重新计算每个样本的权重,第一个if是判断是否分类错误,如果分类错误,就在原来的权重上乘上reweight(这地方我还有点不清楚,原论文上应该是分类正确了乘上reweight,公式14)。

底下的那部分代码就是重新归一化权重,没什么特别的。至于另一个函数buildClassifierUsingResampling,想想还是不讲了,与这个函数比较也没什么特别的地方。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目录 Weka 开发1-Instances类 1 Weka开发2-分类器类 2 Weka开发3-Evaluation类 3 Weka开发4-特征选择 4 Weka开发5-半监督算法 6 Weka开发0-导入Weka包 8 半监督算法工具SVMlin使用 12 半监督算法工具SVMlin读取数据代码介绍 14 Weka开发6-参数设置 16 Weka开发7-LibSVM 17 Weka开发-ID3源码介绍 18 Weka开发9—KMeans源码介绍 21 Weka开发10—NBTree源码介绍 25 Weka开发11—J48源代码介绍 31 Weka开发13-Ensemble 39 Weka开发14AdaBoost源代码介绍 42 Weka开发15-ZeroR源代码介绍(入门篇) 45 Multi-Label Classification(多标签分类) 介绍 47 Weka开发16-OneR源代码介绍 47 Weka开发-1——在你的代码中使用Weka 51 挖掘多标签数据综述(multi-label data mining)[Available] 62 数据流-移动超平面(HyperPlane)构造 63 Weka开发17——关联规则之Apriori 66 Weka开发18——寻找K个邻居 67 Weka开发19——NaiveBayes源代码分析 69 Weka开发20——IB1源代码分析 74 Weka开发21——IBk(KNN)源代码分析 77 Weka开发22——REPTree源代码分析(1) 81 Weka开发23——PART源代码分析 94 Weka开发24——Apriori源代码分析(1) 101 Weka开发24——Apriori源代码分析(2) 106 Weka开发25——Bagging源代码分析 112 Weka开发26——Voting源代码分析 116 Weka开发27——SMO源代码分析1 122 Weka开发27——SMO源代码分析2 127 weka开发27——SMO源代码分析3 132 Weka开发27——SMO源代码分析4 138
### 回答1: weka-3-8-6-azul-zulu-windows.exe是一款用于数据挖掘和机器学习的免费开源软件Weka的安装程序。它采用了Azul Zulu OpenJDK平台,可在Windows系统上运行。Weka可以处理各种数据,并提供大量数据挖掘和机器学习算法,以帮助用户发现数据中的规律和模式。它还具有图形用户界面和命令行界面,使其易于使用。Weka被广泛用于学术界和工业界,它的应用包括医疗、金融、商业和社交媒体等领域。对于那些对数据挖掘和机器学习感兴趣的人来说,Weka是一个强大的工具,可以帮助他们分析和理解数据。 ### 回答2: weka-3-8-6-azul-zulu-windows.exe 是一款开源的机器学习软件WeKa的安装包,适用于Windows操作系统。WeKa是由新西兰Waikato大学开发的一款数据挖掘工具,它提供了一系列的机器学习算法和数据预处理工具,包括分类、聚类、回归等常见的算法。azul-zulu是一款Java运行时环境,用于运行基于Java编写的应用程序。因此,weka-3-8-6-azul-zulu-windows.exe中包含了WeKa软件及其所需的Java运行时环境。 下载weka-3-8-6-azul-zulu-windows.exe后,用户可以通过简单的安装流程将WeKa软件及其依赖的Java环境安装到自己的电脑上。安装完成后,用户可以通过WeKa提供的图形界面或者命令行界面进行数据挖掘和机器学习任务的分析和建模。WeKa被广泛应用于数据挖掘和机器学习领域,可以帮助用户处理和分析各种类型和规模的数据集。同时,WeKa还提供了丰富的文档和示例,方便用户学习和使用。总之,weka-3-8-6-azul-zulu-windows.exe是一款非常实用的数据挖掘工具软件,可以帮助用户掌握和应用机器学习技术,从而更好地处理和分析数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值