创建过程是先横向寻找维度,再在该维度上按特征值切割。具体过程如下:
数据集的特征
dataset=[[1,1,yes],
[1,1,yes],
[1,0,no],
[0,1,no],
[0,1,no]],
数据集最后一列是分类标签。
首先输入数据集,提取出类标签列表,如果该列表只有一类,则直接返回类标签,如果数据集只有一列,则返回类别数最大的类标签。先横向尝试在不同维度上按最佳信息增益的方法,找出用哪一维度的数据分割最好,然后取出该维度标签,构造决策树;继而通过去重提取该维度的特征值,有多少个特征值即该维度标签下就有多少条分支,接着按该维度的特征值对数据集进行切割,切割后的数据集在横向上缺少了该维度,在纵向上只包含该特征值的行,对切割后的数据集,作为新的数据集传入重复上面的过程,直到所有分支构建完毕。