第三章 分类
1. 分类的定义
分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值,例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。
2. 分类的应用领域
目前分类与回归方法已被广泛应用于各行各业,如:在金融领域中,分类器被用于预测股票未来的走向。在医疗诊断中,预测疾病的诊断。在市场营销中,利用历史的销售数据,预测某些商品是否可以销售、预测广告应该投放到哪个区域等。
3. 分类的一般步骤
(1) 将数据集划分为训练集和测试集;
(2) 对训练集进行学习,构建分类模型;(这个模型可以是决策树或分类规则等)
(3) 用分类模型对测试集进行分类;评估该分类模型的分类准确度及其它性能;
(4) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。
4. 分类算法归类
分类方法:
- 基于决策树的分类方法
- 贝叶斯分类方法
- 最近邻分类方法
- 神经网络方法
- 支持向量机等
回归方法:
- 线性回归
- 非线性回归
- 逻辑回归等
5. 决策树分类算法
ID3、C4.5、CART等
6. ID3决策树
ID3 分类算法使用信息增益作为属性的选择标准。其基本思想如下:首先检测所有属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一个类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。
信息熵的定义:
用概率去算
信息增益的定义:
划分前-划分后
7. C4.5算法
特点:
- 能够处理连续型属性数据和离散型属性数据
- 使用信息增益率作为决策树的属性选择标准
分裂信息:
信息增益率:
8. CART算法
Gini系数:
例题:
答案: