b站Tommy唐国梁
之前一直在解决客户流失预测,从github上面用kaggle为例子做了一个模拟,发现用的最多还是决策树的模型,于是决定学习,整理一下这周的学习内容,然后赶紧搜集代码,赶工。
1.什么是决策树
(1)由一个根结点,若干个内部节点,若干个叶子结点构成,内部节点是一个判断的问题,叶子结点是可能有的结果。
(2)可以解决分类和回归问题,天然解决多分类问题
(3)非参数学习算法,不同于tensorflow通过数据学习调整参数,主要是自己调参。
2.决策树的目标
通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的特征当成根结点,以此类推。
3.两大问题
(1)每个节点在哪个维度上做划分?
(2)每个维度在哪个值做划分?
4.两大措施(衡量标准)
核心原理类似但是计算方式不太一样
(1)信息熵entropy
(2)基尼系数gini
5.信息熵(ID3)
什么是熵:在信息论中代表随机变量的不确定性的度量
熵越小,数据的不确定性越高;反之则反。
计算公式:主要是对数函数的特征,当x=1,函数值为0.还有就是负号也是一个特点
6.基尼系数(CART算法)
在分类问题中,假设有k个类别,样本点属于第i类的概率为pi,则概率分布的基尼系数定义为:
7.决策树的最大挑战——过拟合
应对措施:剪枝,降低过拟合风险,提高模型的泛化能力(在测试集和训练集上都有很好的表现)。
(1)预剪枝(常用)
定义:边建立决策,边剪枝。
方法:限制深度,叶子结点个数,叶子结点样本数,信息增益等。(sklen函数库)
(2)后剪枝
定义:当建立完决策树后,再来进行剪枝操作。
方法:通过一定的衡量标准(计算叶子结点的损失)下图为计算公式。