剪枝是决策树处理“过拟合”的主要手段,基本策略有”预剪枝“和“后剪枝“。
预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
如何决策树泛化性能是否提升?可以使用留出法判断。留出法,即预留一部分数据用作"验证集"以进行性能评估。预剪枝和后剪枝的示例就不贴了。