一、决策树
1.工作原理
2.建立决策树算法
(1)Hunt's Algorithm
(2)CART
(3)ID3,C4.5
(4)SLIQ, SPRINT
3.属性划分方法
- 二元属性:测试条件产生两个可能的输出。
- 标称属性
- 序数属性
- 连续属性:离散后划分;选取某一阈值进行二分
4.属性最佳划分策略(选取是的划分后数据单纯度最高(混乱度最低)的划分策略)
不纯度量:(c是类的个数)
(1)基尼系数GINI
- 节点GINI:
- 划分GINI:
结点 计数
(节点)(划分)
(2)熵Entropy
- 节点Entropy:
- 划分Entropy:
(3)误分类误差Misclassification error
- 节点Error:
(4)二元分类问题不纯性度量之间的比较
5.何时停止拓展
- 所有数据都为同一类;
- 所有数据都有着相似的属性;
- 提前终止。
6.算法评价
- 优点:构造简单,预测迅速,在属性较少时解释性好
二、模型的过分拟合
1.模型拟合不足Underfitting和过分拟合Overfitting:当决策树很小时,训练和检验误差都很大即为拟合不足;当树的规模变得太大,及时训练误差还在继续降低,但是检验误差开始增大,这种为过分拟合。
2.最小描述长度MDL
3.处理决策树归纳中的过分拟合
- 先剪枝:当观察到的不纯性度量的增益低于某个确定的阈值时就停止扩展叶结点
- 后剪枝:自下而上修建完全增长的决策树。两种方法:
(1)用新的叶结点替换子树,该叶结点的类标号由子树下记录中的多数类确定;
(2)用子树中最常使用的分支代替子树。
4.其他问题
- 数据碎片
- 搜索策略
- 表现力
- 树的复制
三、分类模型的评估
1.混淆矩阵
(准确率 = 正确预则数/预测总数)
-
准确率Accuracy = (TP + TN) / (TP + TN + FP + FN) 预测正确的比率
-
精确率Precision = TP / (TP + FP) 找到的正例正确的比率
-
召回率Recall = TP / (TP + FN) 正例被找到的比率
2.代价矩阵
两者比较
3.保持方法
分2/3给训练集,1/3给测试集
4.交叉验证
ROC曲线:
TP rate, TPR = TP/(TP+FN) ; FP rate, FPR = FP/(FP + TN)
5.分层抽样
6.自助法
四、朴素贝叶斯分类器
利用贝叶斯公式,找出概率最大的C。
1.算法要点
- 在各个类C进行概率比较时,P(X)都包含在其中,因此可以忽略这一项,只比较分子;
- 似然函数的合成P(X∣C)=ΠjP(Xj∣C)=P(X1∣C)∗P(X2∣C)∗...
- P(Xi∣C)的计算:
- (1)对于离散数据可以用频率估计概率
- (2)对于连续数据,基于高斯分布进行概率计算
2.算法评价
- 优点:实现简单效果好
- 缺点:要求各个属性互相独立