1.决策树模型:
决策树定义:分类决策树模型是一种描述对实例进行分类的树形结构;
组成部分:a.结点; 结点分为两种类型:内结点、叶结点;
内部结点表示一个特征或者属性;
叶结点表示一个类。
b.有向边
用决策树进行分类,首先从根节点开始(根节点为实例的某一特征),并对其进行测试,根据测试结果,将实例分配到其子结点(子节点对应着该特征的一个取值);
使用递归的方法对实例进行测试并分配,一直到叶节点结束。
2.决策树与If-then规则:
规则过程:将决策树的根节点到叶节点的每一条路径构建一条规则;
if()——>为条件:路径上内部结点的特征
then——>:叶结点的类
if-then规则集合的性质:互斥且完备;
3.决策树与条件概率分布 :
将条件概率分布定义在特征空间的划分上;特征空间划分为互不交的单元或者区域,并在每一个单元(区域)定义一个类的概率分布;
若X表示特征的随机变量,Y表示类的随机变量,则条件概率表示为P(Y|X);
4.决策树学习:(常用算法:ID3、C4.5、CART)
损失函数为:正则化的极大似然函数;
策略:以损失函数为目标函数的最小化;
为防止过拟合现象(在对未知的数据测试过程中),则对决策树