目录
分类的定义
分类:建立一个学习函数(分类模型)将每个属性集合(x1,x2,...xn)对应到一组已定义的类别y中。
分类结果的评估的四大指标:
- Precision精确度
- Recall召回率
- Accuracy准确度
- Error rate错误率
分类矩阵/混淆矩阵confusion Matrix:
实际 | |||
地雷玩家 | 非地雷玩家 | ||
预估 | 地雷 | a | b |
非地雷 | c | d |
越高越好
越高越好
越高越好
越小越好
决策树Decision Tree
决策树是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。
混乱衡量指标Gini index
Gini index擅长处理True或False的二元分类树。其计算公式为:
其中:
Gini index的计算 :
分类前数据:
分类属性1:偏好女主角
表示在该分类属性下的分类效果,Δ越大越好
分类属性2:能carry整场
综上,可以看出属性2的分类效果比较好。
属性分支数与模型复杂度:在决策树中,分支数越多,乱度越低,但模型越复杂(即过度适配)。
决策树的特点
- 建设成本低,速度快,一次构建,反复使用;
- 模型可以读性好,具有描述性,有助于人工分析;
- 乱度测量方法的选择对分类结果影响不大;