决策树回归原理详解及Python代码示例

wodertianna

于 2024-06-26 00:28:52 发布

阅读量555

点赞数 6

文章标签：决策树回归 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wodertianna/article/details/139907132

版权

决策树回归原理详解

决策树回归（Decision Tree Regression）是一种非参数监督学习方法，它使用树形结构来对目标变量进行预测。与线性回归模型不同，决策树回归不需要预先假设数据的分布形式，因此能够很好地处理非线性和高维数据。

目录

决策树回归原理详解

1. 决策树回归的基本概念

2. 决策树的构建过程

3. 决策树回归的优缺点

Python代码示例

详细代码及结果解释

1. 决策树回归的基本概念

决策树回归通过递归地将数据集划分为更小的子集，并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征，节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。

2. 决策树的构建过程

选择最优分裂点：选择一个特征及其相应的分裂点，使得数据集在该特征上的分裂能最大程度地减少目标变量的方差（或均方误差）。
递归分裂：在每个分裂的子集上重复上述过程，直到满足停止条件（如达到最大深度或叶节点样本数量小于某个阈值）。
生成叶子节点：停止分裂后，叶子节点的值设为该子集上目标变量的均值。

3. 决策树回归的优缺点

优点：

简单易理解，可视化效果好。
对数据预处理要求较低（无需归一化或标准化）。
能处理多种数据类型（数值型、分类型）。
适用于处理非线性关系。

缺点：

容易过拟合，特别是树的深度较大时。
对小数据集敏感，容易产生较大波动。
在某些情况下，结果不稳定（对噪声数据敏感）。

Python代码示例

详细代码及结果解释

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# 生成一些示例数据
np.random.seed(0)
x = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(x).ravel()
y[::5] += 3 * (0.5 - np.random.rand(16))  # 添加噪声

# 可视化原始数据
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.title("Original Data")
plt.show()

# 创建决策树回归模型并进行拟合
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(x, y)
regr_2.fit(x, y)

# 预测结果
x_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(x_test)
y_2 = regr_2.predict(x_test)

# 可视化拟合结果
plt.figure()
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(x_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(x_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

# 打印模型参数和均方误差
print("Max depth 2 - Mean Squared Error:", mean_squared_error(y, regr_1.predict(x)))
print("Max depth 5 - Mean Squared Error:", mean_squared_error(y, regr_2.predict(x)))

代码解释

数据生成：
- 生成80个随机点，并将这些点排序。
- 使用正弦函数生成目标值，并在每五个数据点上添加噪声以增加数据的复杂性。
数据可视化：
- 绘制生成的原始数据点，用散点图表示。
模型训练：
- 创建两个决策树回归模型，一个最大深度为2，另一个最大深度为5。
- 在生成的数据集上训练两个模型。
结果预测：
- 在测试数据集（0到5的范围内，每隔0.01一个点）上进行预测。
- 分别得到深度为2和5的模型的预测结果。
可视化拟合结果：
- 绘制原始数据点和两个模型的拟合曲线，观察不同深度下的拟合效果。
- 深度为2的模型（蓝色曲线）较为平滑，但可能欠拟合。
- 深度为5的模型（绿色曲线）较为复杂，能够更好地拟合数据，但有可能过拟合。
模型评估：
- 计算并打印两个模型的均方误差（MSE），评估其在训练数据上的拟合效果。
- 打印结果表明，随着树的深度增加，MSE可能会降低，但也会增加过拟合的风险。

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
决策树回归原理详解及Python代码示例

决策树回归（Decision Tree Regression）是一种非参数监督学习方法，它使用树形结构来对目标变量进行预测。与线性回归模型不同，决策树回归不需要预先假设数据的分布形式，因此能够很好地处理非线性和高维数据。决策树回归通过递归地将数据集划分为更小的子集，并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征，节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。1. 决策树回归的基本概念。3. 决策树回归的优缺点。2. 决策树的构建过程。
复制链接

扫一扫

wodertianna

CSDN认证博客专家 CSDN认证企业博客

码龄5年

74: 原创

7019: 周排名

1万+: 总排名

4万+: 访问

: 等级

1891: 积分

1042: 粉丝

1285: 获赞

11: 评论

385: 收藏

私信

关注

热门文章

分类专栏

Python操作基础 24篇
一些报错解决记录 1篇

最新评论

Python模块之Numpy（三）-- 数组的访问
CSDN-Ada助手: 恭喜作者发布了第19篇博客！对于Python模块Numpy的讲解，让读者受益匪浅。希望作者能够继续保持创作的热情，不断分享有价值的知识给大家。下一步建议可以考虑深入探讨Numpy在数据处理和科学计算中的应用，相信会吸引更多读者的关注。期待作者的更多精彩内容！
Python模块之Numpy（一）-- 创建数组
CSDN-Ada助手: 恭喜您写了第17篇博客！您对Python模块Numpy的介绍非常详细，让读者受益匪浅。接下来，或许可以考虑深入探讨Numpy的数组操作方法，或者结合实际案例展示Numpy在数据处理中的应用。期待您更多的精彩内容，加油！祝您创作顺利，不断进步！
Python基础操作之自定义函数
CSDN-Ada助手: 恭喜您写了第16篇博客！自定义函数是Python基础操作中很重要的一部分，您的分享一定帮助了很多初学者。希望您能继续保持创作的热情，不断提升自己的写作水平。下一步可以考虑深入探讨函数的高级用法或者与其他模块的结合应用，期待您的更多精彩内容！
2024 年“泰迪杯”A 题：生产线的故障自动识别与人员配置--第四题（用遗传算法解决生产线排班问题--matlab代码）
CSDN-Ada助手: 恭喜您发布了第15篇博客！标题看起来非常专业和有趣，对于解决生产线排班问题采用遗传算法的方法也非常引人注目。希望您能继续坚持创作，分享更多有价值的内容给大家。或许下一步可以考虑结合实际案例或者深入探讨算法的优化方向，让读者更深入地了解这一领域的知识。期待您的下一篇作品！
英语六级作文模板
CSDN-Ada助手: 恭喜作者撰写了关于“英语六级作文模板”的博客，这对许多需要备考的同学来说肯定是一大福音。希望作者能继续保持创作的热情和耐心，为读者提供更多有用的学习资料。或许下一步可以考虑分享一些实用的写作技巧或者范文分析，让读者更好地掌握英语写作的技巧。期待作者的更多精彩内容！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。