决策树 in Matlab
决策树是一种常见的分类决策结构。在获取足够的数据条件下,根据筛选特征的先验条件分布,生成一种能够帮助决策的树结构。生成决策树的过程,可以由Matlab帮助生成。
假设输入的样本含有N维特征和一维的标签,那么输入数据的结构就应该为:
data: M*N的矩阵;M为样本的个数。
label:M*1;M为样本的个数。
具体使用代码如下:
load fisheriris
ctree = fitctree(meas, species);
决策树的选取原则是最大化信息熵。简而言之,选出分类最为显著的特征作为上层节点,一层一层地筛选下来。决策树有多少层,选择就有多少个分支。对于新的样本,只需对应做出相应的选择,就可以走到根节点,做出判断。
图形化观察生成的决策树:
view(ctree, 'mode', 'graph');
有时生成的树,由于特征的取值域是连续的,导致决策树过于庞大,需要进行一些人为的剪枝操作。剪枝操作在Matlab中可以使用prune函数,取出指定层次以下节点或是指定节点以下的节点。
ctree = prune(ctree, 'Level', 1);
view(ctree, 'mode', 'graph');
具体参数调节,可以通过图形化界面观察,特点是减掉所有后续节点。这一点应该和其数据结构有关。