sklearn中的分类型决策树与泰坦尼克号实例

最新推荐文章于 2023-07-17 11:46:01 发布

yt2826996

最新推荐文章于 2023-07-17 11:46:01 发布

阅读量303

点赞数

文章标签：决策树 sklearn

本文链接：https://blog.csdn.net/yt2826996/article/details/128378571

版权

本文深入探讨了sklearn中决策树的重要参数，包括criterion、random_state、splitter以及五个剪枝参数，如max_depth、min_samples_leaf等。通过泰坦尼克号数据集实例，详细讲解了数据预处理、模型建立和调参过程，展示如何通过调整max_depth和使用网格搜索优化模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、决策树类的重要参数

1.criterion

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：
1）输入”entropy“，使用信息熵（Entropy）
2）输入”gini“，使用基尼系数（Gini Impurity）

问题	解释
公式上的不同	信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。
可能的输入有哪些？	不填默认基尼系数，填写gini使用基尼系数，填写entropy使用信息增益
怎样选取参数	通常就使用基尼系数。特殊情况参照第一条。两个都试试，不好就换另外一个。