简介:
C5.0算法是昆兰在C4.5算法的基础上提出的商用改进版本,目的是对含有大量数据的数据集进行分析。
计算过程:
C5.0算法的训练过程大致如下。
假设训练的样本集S共有n个样本,训练决策树模型的次数为T,用Ct表示t次训练产生的决策树模型,经过T次训练后最终构建的复合决策树模型表示为C*。
用表示第i个样本在第t次模型训练中的权重(i=1,2,3,…,n;t=1,2,3,…,T);
用表示
的归一化因子,再用βt表示权重值的调整因子,并定义0-1函数:
C5.0算法是昆兰在C4.5算法的基础上提出的商用改进版本,目的是对含有大量数据的数据集进行分析。
C5.0算法的训练过程大致如下。
假设训练的样本集S共有n个样本,训练决策树模型的次数为T,用Ct表示t次训练产生的决策树模型,经过T次训练后最终构建的复合决策树模型表示为C*。
用表示第i个样本在第t次模型训练中的权重(i=1,2,3,…,n;t=1,2,3,…,T);
用表示
的归一化因子,再用βt表示权重值的调整因子,并定义0-1函数: