决策树
决策树学习是应用最广泛的归纳推理算法之一,学习一种逼近离散值目标函数的方法;树上每个节点指定了对实例的某个属性的测试,该节点的每一个后继分支对应于该属性的一个可能值;分类能力越强,越靠近根节点;任何属性在树的任意路径上最多仅出现一次。
优点:
1)对噪声有很好的健壮性且能够学习析取表达式;
2)可以表示为if-then的规则,逻辑性直观,可读性高,具有清晰的可解释性;
3)每一步都适用当前所有样例,大大降低了对个别样例错误的敏感性;
4)能处理不均一的数据,无需对数据进行标准量化,能够对缺少属性值的样例进行分类;
5)搜索假设完整空间,避免了搜索不完整空间的风险;
缺点:
- 只维护单一的当前分支假设;
- 搜索过程无回溯,属于爬山搜索,易得到局部最优而非全局最优
- 容易过拟合,需要在训练中设置限定条件或者训练后对树进行修剪