《SLIQ:A fast scalable classifier for data mining》论文笔记

1 简介

本文根据1996年《SLIQ:A fast scalable classifier for data mining》翻译总结的,即一个快速的可扩展的数据挖掘分类器。看了论文,论文中没找到SLIQ的缩写,还不清楚为什么这么叫。

SLIQ之前的算法都是基于内存的,无法应用于大量数据,SLIQ可以,基于内存和硬盘。

主要使用了两个技术:pre-sorting、宽度优先(breadth-first)树增长策略。

SLIQ采用决策树分类,决策树分类相对于其他分类方法更加快速。比如神经网络需要非常长的训练时间,即使是小的数据集。

决策树示例如下:
在这里插入图片描述

2 决策树分类

大部分决策树分类有两个阶段:树构建和树裁剪。

树构建的伪代码可以表示如下:
在这里插入图片描述

树裁剪:上面构建的树分类的所有的数据,这可能导致树枝是基于虚假的噪声数据或者统计波动而建立的。当分类测试数据时,这些树枝可能导致错误。树裁剪的目的是去除这些树枝,基于最小的估计错误率选择子树。

3 可扩展说明

3.1 树构建

树的建立包括两个主要的操作,(1)对每个数据属性的分割评估与最好的分割选择;(2)使用最好的分割进行分割的创建。

分割指标:对一个数据属性评估分割的好坏。采用的gini 指标。
在这里插入图片描述

3.2 树裁剪

要基于最小的估计错误率选择子树,有两种方法可以评估错误率,一种是使用原来的训练数据,另一种是使用的独立数据。Cross-validation 属于第一种方法。第2种方法是将训练数据分为两部分,一部分用来构建树,一部分用来裁剪树。

4 SLIQ进行分类

4.1 概述

SLIQ是一个决策树分类器,可以处理数字的和分类的属性。SLIQ在树成长阶段使用pre-sorting 技术来减少评估数字特征的花费。这个排序过程是集成在宽度优先(Breadth-First)的树增长策略里,使SLIQ可以分类磁盘里的数据。

此外SLIQ对于分类属性的分割,使用了一个快速分组算法。

SLIQ基于Minimum Description Length原则使用了一个新的树裁剪算法,这个算法很费很少,但可以产生紧凑的、正确的树。

所有这些技术使SLIQ可以处理大数据,对有大量的类别、属性和样本数的数据进行分类。

4.2 Pre-sorting 和 Breadth-First

消除决策树的每个节点的排序,而是在树成长阶段的开始,对数字属性只排序一次。
如下图所示,对训练数据的每个属性创建一个separate list,如下图的右边的前两个表格;此外再建一个class list,如下图右边最后一个表格。每个separate list有两列,一列是属性的值,一列是对应class list的索引值。

在这里插入图片描述

4.2.1 处理节点分割

采用的非深度优先,而是宽度优先。例子如下图,在N1处,根据age<=35, 初始化histogram ,分为N2、N3,比如N2初始化表格代表age<=35的有一个B,一个G;N3初始化表格,有1个B、3个G。L代表左侧,符合条件的;R代表右侧,不符合条件的。

接着在N2节点,用salary<=15评估第一次分割,更新histogram,如下图中间的左表格,L-B更新为1,R-B更新为0.(可以看上一节的全量数据,其中age=23、salary=15的数据是B类别,另一条age=30的数据是G类别,不用更新histogram)。

接着在N3节点,用salary<=40,更新histogram。

在这里插入图片描述

4.2.2 更新class list

上面分割完后,就要对每个叶子节点创建子节点,并更新class list。如下图,更新class list 第4行的N3为N6。
在这里插入图片描述

4.3 类别属性的分组

比如一个属性A属于S,S又属于S。其中S是属性A的所有可能的组合。S的所有组合评估是代价较高的,特别是S的基数很大时。

SLIQ采用混合的方法,当S的基数不超过某个阈值时,评估S的所有分组。当大于阈值时,采用贪婪算法求出S`。

4.4 树裁剪

采用MDL(Minimum Description Length)策略。
在这里插入图片描述

5 实验结果

5.1 小数据集

小数据集上,主要是和IND包中的CART、C4这两个算法进行比较。如下图所示,IND-Cart算法有较高的准确率、较小的树,但速度慢。IND-C4的准确率和速度还行,但是树太大。而SLIQ兼顾。
在这里插入图片描述

5.2 可扩展性

可以看到SLIQ的扩展性与分类时间是线性增长的,主要是因为数据大小和I/O读写的花费直接成比例相关。图中两个function是不同的树大小。

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值