分类Classification:决策树Decision Tree

目录

分类的定义

决策树Decision Tree

混乱衡量指标Gini index

决策树的特点


分类的定义

分类:建立一个学习函数(分类模型)将每个属性集合(x1,x2,...xn)对应到一组已定义的类别y中。

分类结果的评估的四大指标:

  • Precision精确度
  • Recall召回率
  • Accuracy准确度
  • Error rate错误率

分类矩阵/混淆矩阵confusion Matrix:

实际
 地雷玩家非地雷玩家
预估地雷ab
非地雷cd

Precision=\frac{a}{a+b}     越高越好

Recall=\frac{a}{a+c}           越高越好

Accuracy=\frac{a+d}{a+b+c+d}        越高越好

Error\, rate=\frac{b+c}{a+b+c+d}        越小越好

决策树Decision Tree

决策树是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。

混乱衡量指标Gini index

Gini index擅长处理True或False的二元分类树。其计算公式为:

Gini(x)=1-\sum (P(Xi)^{2})

其中: 

Gini index的计算 :

分类前数据:

分类属性1:偏好女主角

Gini(left)=1-[(\frac{4}{7})^{2}+(\frac{3}{7})^{2}]=0.4898        

Gini(right)=1-[(\frac{2}{5})^{2}+(\frac{3}{5})^{2}]=0.48        

\Delta =0.5-(\frac{7}{12}*0.4898+\frac{5}{12}*0.48)=0.014    表示在该分类属性下的分类效果,Δ越大越好

分类属性2:能carry整场

Gini(left)=1-[(\frac{1}{5})^{2}+(\frac{4}{5})^{2}]=0.32

 Gini(right)=1-[(\frac{5}{7})^{2}+(\frac{2}{7})^{2}]=0.4081

\Delta =0.5-(\frac{5}{12}*0.32+\frac{7}{12}*0.4081)=0.129

综上,可以看出属性2的分类效果比较好。

属性分支数与模型复杂度:在决策树中,分支数越多,乱度越低,但模型越复杂(即过度适配)。

决策树的特点

  • 建设成本低,速度快,一次构建,反复使用;
  • 模型可以读性好,具有描述性,有助于人工分析;
  • 乱度测量方法的选择对分类结果影响不大;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值