综述性论文,讲述基本概念,介绍使用实验来验证可以达成提高多大的提高。目前决策树已十分成熟,业内论文主要也针对新的应用场景,以及多模型融合。
朴素贝叶斯算法在很多分类器项目上表现出惊异的准确性,即使在依赖的条件独立性假设条件被违反的情况下。但这主要是在一些数据量较小的项目上。在一些数据量很大的项目中,贝叶斯的表现不如决策树的准确率高。针对这个问题,我们提出了一种新的算法:NB树,混合了决策树分类器跟贝叶斯分类器。决策树包含单变量的节点分裂为常规决策树,叶节点包含贝叶斯分类器。这种方法在比两种原始方案表现更好的情况下(特别是在数据量较的情况下)保留了朴素贝叶斯与决策树的解释性。
简介
朴素贝叶斯算法对不相关特性具有很好的鲁棒性,缺点是要求做强独立假设,如果假设被违反,可实现的渐近线会很早靠近,准确性不会随着数据规模的增大增大。
决策树缺点在于基于递归划分的当前归纳方法存在着分割问题,每次分割完成后数据集越来越小,最后只能依赖很小的数据来做决定。
两者都有很好的分类可读性。
NB树结合了两者的优点,通过决策树分割数据后,代表一份数据片段的叶节点,被贝叶斯分类器适用。接下来在算法归纳中会显示条件独立假设会被满足。
NBTree:融合算法
输入:一组标记的实例。
输出:在叶节点上具有naive-bayes分类器的决策树。