信息增益算法的步骤:
-
输入:训练数据集D和特征A;
-
依据数据集中的类别计算经验熵:
-
由训练数据集获取各类别数量;
-
根据类别计算相应的概率分布;
-
-
计算经验条件熵(或者说):
- 确定特征A;
- 根据特征A对数据集划分获取子集,计算子集的经验熵并求和;
- 对子集分类(此处分类是按类别分,不是按特征分),获取各类对应的集合;
- 由上一步的和计算第类在子集中的概率分布;
- 按公式计算出子集的经验熵;
- 求子集对于数据集的概率分布;
- 步骤2、3中的数据对应相乘后相加。
-
计算信息增益: