定义:每个非节点表示一种对样本的分割,通常是选用样本的某一个特征,将样本分散到不同的子节点中
用途:
对未知数据分类
按照决策生成的分割属性逐层往下
方法:
how:选择一个特征设置一个阈值threshold
目标:分类效果最好
度量方法:信息增益,信息增益率,基尼指数
信息增益/率
分割前的熵值:经验熵
分割后的熵值:经验条件熵
基尼指数
执行一个分割的信息增益越大,对样本熵的减少能力越强,不确定变为确定的能力越强
定义:每个非节点表示一种对样本的分割,通常是选用样本的某一个特征,将样本分散到不同的子节点中
用途:
对未知数据分类
按照决策生成的分割属性逐层往下
方法:
how:选择一个特征设置一个阈值threshold
目标:分类效果最好
度量方法:信息增益,信息增益率,基尼指数
信息增益/率
分割前的熵值:经验熵
分割后的熵值:经验条件熵
基尼指数
执行一个分割的信息增益越大,对样本熵的减少能力越强,不确定变为确定的能力越强