sklearn中的分类型决策树与泰坦尼克号实例

本文深入探讨了sklearn中决策树的重要参数,包括criterion、random_state、splitter以及五个剪枝参数,如max_depth、min_samples_leaf等。通过泰坦尼克号数据集实例,详细讲解了数据预处理、模型建立和调参过程,展示如何通过调整max_depth和使用网格搜索优化模型性能。
摘要由CSDN通过智能技术生成

一、决策树类的重要参数

1.criterion

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
1)输入”entropy“,使用信息熵(Entropy)
2)输入”gini“,使用基尼系数(Gini Impurity)

问题 解释
公式上的不同 信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。另外,因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数据,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候,即当模型在训练集和测试集上都表现不太好的时候,使用信息熵。
可能的输入有哪些? 不填默认基尼系数,填写gini使用基尼系数,填写entropy使用信息增益
怎样选取参数 通常就使用基尼系数。特殊情况参照第一条。两个都试试,不好就换另外一个。

2.random_state & splitter

random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值