信息增益算法的步骤:
-
输入:训练数据集D和特征A;
-
依据数据集中的类别计算经验熵
:
-
由训练数据集
获取各类别数量
;
-
根据类别计算相应的概率分布
;
-
-
计算经验条件熵
(或者说
):
- 确定特征A;
- 根据特征A对数据集
划分获取子集
,计算子集
的经验熵并求和;
- 对子集
分类(此处分类是按类别分,不是按特征分),获取各类对应的集合
;
- 由上一步的
和
计算第
类在子集
中的概率分布
;
- 按公式计算出子集
的经验熵;
- 对子集
- 求子集
对于数据集
的概率分布
;
- 步骤2、3中的数据对应相乘后相加。
-
计算信息增益: