Weka开发［10］—NBTree源码介绍

最新推荐文章于 2022-03-18 14:19:47 发布

zt_706

最新推荐文章于 2022-03-18 14:19:47 发布

阅读量1k

点赞数

分类专栏： weka 源码学习

weka 源码学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

转自 Koala++'s blog 感谢原作者

我不多的读者之一发E-mail给我，说他没有看出NBTree和J48的区别是什么，当时我也没什么空，所以拖到今天才草草看了看。大概讲一下。

下面是J48中的buildClassifier代码：

public void buildClassifier(Instances instances) throws Exception {
ModelSelection modSelection;
if (m_binarySplits)

modSelection = new BinC45ModelSelection(m_minNumObj, instances);

modSelection = new C45ModelSelection(m_minNumObj, instances);

m_root = new C45PruneableClassifierTree(modSelection,

else

!m_unpruned,m_numFolds, !m_noCleanup, m_Seed);

}

public void buildClassifier(Instances instances) throws Exception {

NBTreeModelSelection modSelection =

m_root.buildClassifier(instances);

这里有一个比较特殊的ModelSelection类，这个类以前没提过，它是决定树的模型类，比如上面J48代码中的BinC45ModelSelection表示对于连续属性，分裂时它只分出两个子结点。多扯两句，其实BinC45ModelSelection和C45ModelSelection类，包括以后要讲的NBTreeModelSelection内容都差不多，***ModelSelection类中的selectModel函数返回一个ClassifierSplitModel对象，ClassifierSplitModel故名思意是如何分裂的一个模型。

考虑到NBTree也不是什么经典算法，有人可能不知道是怎么回事，大概讲一下：与决策树的构造方法相似（认为相同也可以）先构造出一个决策树，再在每一个叶子结点构造一个贝叶斯分类器（这也就是为什么默认m_minNumObj是30原因）。具体的内容见论文：Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid。

NBTreeSplit[] currentModel;

NBTreeNoSplit noSplitModel = null;

到现在为止，列出来的代码的确与J48差不多，它们的主要区别是在NBTreeNoSplit类中。下面先列出J48中所用的NoSplit类中的buildClassifer函数：

throws Exception {

m_numSubsets = 1;

再列出NBTreeNoSplit类中的buildClassifer函数：

m_nb = new NaiveBayesUpdateable();

m_disc.setInputFormat(instances);

m_nb.buildClassifier(temp);

m_errors = crossValidate(m_nb, temp, new Random(1));

m_numSubsets = 1;

区别还是挺明显的，除了m_numSubset=1这个标志是叶子结点的语句。在NBTreeNoSplit类的buildClassifier中，在叶子结点构造一个m_nb Naive Bayes分类器，不过又说回来，讲了半天，也就是这一点点区别产生了NBTree这个新的分类器。

public void buildClassifier(Instances data) throws Exception {

cleanup(new Instances(data, 0));

}

对于分类一个样本，在NBTree的classifyInstance函数中，返回：

刚才说对m_root是一个NBTreeClassifierTree对象，但NBTreeClassifier没有实现classifyInstance函数，那么m_root调用的classifyInstance实际上是ClassifierTree类的函数。在其classifyInstance中：

currentProb = getProbs(j, instance, 1);

maxIndex = j;

}

这一段代码没什么意思，样本属于哪个类别概率最高，那么它就被分类为该类别。这里面的getProbs函数中才是我们关心的：

private double getProbs(int classIndex, Instance instance, double weight)

throws Exception {

double prob = 0;

if (m_isLeaf) {

return weight * localModel().classProb(classIndex, instance, -1);

} else {

int treeIndex = localModel().whichSubset(instance);

if (treeIndex == -1) {

for (int i = 0; i < m_sons.length; i++) {

prob += son(i).getProbs(classIndex, instance,

}

return prob;

if (son(treeIndex).m_isEmpty) {

instance, treeIndex);

return son(treeIndex).getProbs(classIndex,

}

如果不是叶子结点：先得到这个样本属于应该是哪个子结点的，如果treeIndex=-1表示这个属属性值是缺失的，计算它的方法就是用对每个子结点分开算，再加起来。如果不是缺失的，如果子结点是空的，与是子结点的计算方法相同，否则，递归。

public double classProb(int classIndex, Instance instance, int theSubset)

m_disc.input(instance);

return m_nb.distributionForInstance(temp)[classIndex];

刚才所提到的m_nb这个Naive Bayes分类器调用distributionForInstance。NBTree差不多讲完了，最后来点打击人的，我真感觉这个分类器没有太大的必要搞懂，不过提出它的作者我认为算是一个想象力丰富的人，至于NBTree 的应用，我仅知道它在VFDTc中用到了，还在它的几个改进版中用到过，其它的用到它的地方我也不知道，有人知道，请告诉我。

zt_706

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Weka开发［10］—NBTree源码介绍

转自 Koala++'s blog 感谢原作者我不多的读者之一发E-mail给我，说他没有看出NBTree和J48的区别是什么，当时我也没什么空，所以拖到今天才草草看了看。大概讲一下。下面是J48中的buildClassifier代码： public void buildClassifier(Instances ins
复制链接

扫一扫

专栏目录